Garantías Científicas y Éticas de la Evaluación Psicológica

Introducción

Durante el proceso de Evaluación psicológica se administran una serie de tests, técnicas, o instrumentos a través de los cuales se pretende la cuantificación de los comportamientos, características o propiedades del sujeto (o sujetos) en estudio.

La evaluación se realiza a través de un proceso, el cual supone un procedimiento científico sujeto a reglas y, por tanto, sujeto a contrastación científica.

Cualquier actividad Humana está sometida a una regulación dictada por los agentes sociales que, de alguna manera, condiciona la Evaluación psicológica.

Tests, técnicas y otros procedimientos de medida

Un test, Cronbach (1990), es un procedimiento sistemático para observar la conducta y describirla con la ayuda de escalas numéricas o categorías establecidas. Esta definición engloba los cuestionarios. Hay que resaltar:
  • El requisito de que el test presente escalas númericas o categorías establecidas.
  • El requisito de que a todas las personas se les debe preguntar u observar de la misma manera.
Pelechano (1976, 1988) añade una tercera característica:
  • La de que los tests permitan comparaciones interindividuales.
Los tests son procediemientos de medida cuyo material, forma de administración, puntuación, corrección y valoración son estándar y de los que se derivan puntuaciones normativas.

Las técnicas son también procedimientos de recogida de datos que diferenciamos de los tests por el hecho de no cumplir con alguna de las características antes mencionadas.

Las técnicas pueden ser:
  • Estándar, en el sentido de contar con un material, forma de administración y corrección homologados.
  • Pueden adoptar una forma flexible, en la que ni el material, ni la administración, ni la escala de puntuación estén tipificados.
La comunidad científica ha procurado establecer normas para la construcción de tests y técnicas de medida. Con tales normas se busca que cada técnica de medida presente una serie de requerimientos e informaciones que faculten al usuario a la hora de decidir, sobre la base de sus objetivos de evaluación, qué dispositivos de medida utilizar.

El evaluador no es un constructor de tests, sino un usuario de los mismos y debe conocer qué principios y requisitos deben reunir los dispositivos de medida a utilizar.

El evaluador debe seleccionar aquellos tests estándar que sean idóneos a la hora de medir las unidades de análisis objeto de estudio; debe elegir también aquellos procedimientos específicos que den cuenta de características idiográficas y, por último, debe contrastar las garantías de sus propios datos y no utilizar aquellos probablemente sesgados en sus posteriores elaboraciones ni como base de los resultados y conclusiones.

Los resultados del caso han de ser elaborados antes de llegar a una descripción, diagnóstico, predicción, orientación o tratamiento de éste.

El psicólogo debe elaborar sus datos realizando una tarea de inferencia, análisis y síntesis.

Una evaluación no sólo incluye recogida de información y elaboración de ésta, sino que supone un proceso de toma de decisiones en el que se incluye: las hipótesis, las técnicas aplicadas, el diagnóstico, la orientación y la selección.

El proceso en su vertiente experimental, puede terminar con la aplicación de tratamientos y la valoración de ellos y puede ser debidamente contrastado mediante la utilización de los diseños de investigación oportunos que se ajusten a otras cautelas y mediciones.

Puntuaciones utilizadas

Escalas de medida

Nominales, Ordinales, De intervalo, De razón.

Las diferencias entre estas cuatro escalas están en función de las operaciones empíricas básicas necesarias para crear la escala y el tipo de transformaciones que dejen invariante la forma de las escalas.
  • Nominales (La operación empírica básica necesaria para crear la escala es la determinación de igualdad, y la transformación que deja invariante la escala es la permutación).
  • Ordinales (La operación empírica básica necesaria para crear la escala es la determinación de grado de magnitud, mayor que, menor que, para poder ordenar las puntuaciones, y la transformación que deja invariante la escala es la isotónica).
  • De intervalo (La operación empírica básica necesaria para crear la escala es la igualdad de intervalos o de diferencias, y la transformación que deja invariante la escala es la transformación lineal). Cualquier puntuación de desviación (como p.ej., la puntuación T empleada en el MMPI) está utilizando una escala de intervalos.
  • De razón (La operación empírica básica necesaria para crear la escala es la igualdad de razones, y la transformación que deja invariante la escala es la transformación geométrica). No suelen existir puntuaciones que utilicen escalas de razón en Evaluación psicológica.

Puntuaciones directas, criterio y norma

La puntuación directa sólo adquiere significado si se la compara con algo, es decir, dentro de un marco de referencia.

En ese marco de referencia, existen dos métodos básicos:
  • Referencia al criterio. Consideramos que una puntuación se haya referida a un criterio cuando el marco de referencia en el que hay que interpretarla es un “criterio” de logros u objetivos a cumplir.
  • Referencia a la norma. Una puntuación se haya referida a una norma cuando el marco de referencia con el que hay que compararla para que obtenga significado es un grupo, es decir se obtiene la posición del sujeto evaluado con respecto a un grupo de referencia. Para poder interpretar correctamente una puntuación de este tipo, son necesarias dos fases:
    1. Establecimiento del grupo de referencia adecuado.
    2. Transformar la puntuación directa del sujeto en otra que indique la posición que ocupa respecto a ese grupo de referencia elegido.
Existen distintos tipos de interpretación referidas a la norma. Las más usuales suelen ser:
  • Las normas de percentil, o simplemente percentil, nos indican el porcentaje del grupo que sobrepasa el sujeto en cuestión o que obtiene puntuaciones inferiores a éste.
  • Las puntuaciones tipificadas o estándar, nos indican cuánto se separa el sujeto de la media del grupo, en función de lo que se separan los demás.

Estas puntuaciones tienen el inconveniente de presentar valores decimales y negativos por lo que las transformamos en Puntuaciones típicas derivadas.

Obteniéndose así una nueva escala que tendrá por Media y por Desviación típica los valores que nosotros queramos.

Propiedades de los tests y técnicas estándar de medida

Las garantías científicas que han de presentar las técnicas estándar, en cuanto a su construcción, no es una tarea propia del evaluador, sino del psicómetra.

Fiabilidad

La fiabilidad de una técnica de medida se define como la precisión con la que mide.
En los instrumentos de medida existe un componente de error. El estudio de la fiabilidad nos sirve para poder estimar la cuantía de dicho error.

Existen, al menos, tres formas de abordar la fiabilidad:
  1. Estabilidad del test, es decir, hasta qué punto se puede esperar que un individuo alcance la misma puntuación en momentos distintos, también llamada fiabilidad test-retest.
  2. Consistencia interna, es decir, en qué medida los elementos que componen una prueba son homogéneos o consistentes entre sí.
  3. Objetividad de la prueba o fiabilidad interjueces, que corresponde al grado en el cual lo obtenido por un observador es semejante a lo obtenido por otro/s.
Lo importante para nosotros radica en la elección de instrumentos que presenten el mínimo error de medida. Hemos de analizar cuidadosamente los datos antes de elegir el test más idóneo y conviene señalar que mientras ciertos tipos de propiedad como la objetividad son siempre necesarios, otros como la consistencia interna o la estabilidad, pueden no serlo.

Validez

La validez se refiere a la comprobación empírica de que el instrumento de que se trata mida la variable que se pretende medir. Todo instrumento válido ha de ser fiable, pero no toda medida fiable es válida. Con el concepto de validez estamos tratando de una cuestión fundamental: hasta qué punto son válidas las interpretaciones que vamos a hacer. Cronbach (1990).

La Asociación Americana de Psicología (1954, 1974, 1985) ha dictado una serie de normas a las cuales debe atenerse cualquier instrumento de medición en Psicología. Estas normas han sido traducidas también en España (TEA, 1976) y, de hecho, toda técnica estándar de evaluación presenta sus garantías en base a ellas, razón por la cual van a ser seguidas por nosotros.

La validez suele clasificarse:
  1. Validez de contenido, supone la comprobación de que el contenido de la técnica en cuestión comprenda una muestra representativa del universo posible de conductas que se pretende evaluar con ella.
  2. Validez Criterio, también llamada predictiva establece la medida en la cual el instrumento está asociado a un criterio independiente. Este tipo de validez empírica puede ser concurrente o propiamente predictiva, diferenciándose ambas por las relaciones temporales tests-criterio.
  3. Validez de constructo también llamada estructural o conceptual estable el grado en el cual una técnica mide un determinado rasgo o constructo hipotético.
Campbell y Stanley (1963, 1970), establecen la distinción entre validez interna y externa. Bracht y Glass (1968) proponen que la validez externa presenta dos distintas e importantes versiones: la validez de población y la validez ecológica.

Los conceptos sobre fiabilidad y validez pueden ser entendidos a través de la teoría de la generalizabilidad de Cronbach et al. (1972) en base al grado en el cual las puntuaciones halladas mediante un instrumento de medida son generalizables a distintos ámbitos o universos de generalización. En base a ello los autores proponen una ordenación de las distintas formas de fiabilidad y validez y, concretamente a través de un continuo de creciente generalizabilidad.

Debemos seleccionar nuestros instrumentos estándar en base a los datos que, sobre su validez, aparecen en los manuales correspondientes.

Exactitud

A la exactitud, (accuracy), se le está dando gran relevancia desde la Evaluación conductual, entendiéndola como una cualidad independiente de las de fiabilidad y validez. Según Cone (1981), “la exactitud está destinada a describir cómo una medida representa fielmente los rasgos topográficos objetivos de una conducta de interés.” Así, los hechos que están implicitos en tal garantía son:
  1. La verdadera ocurrencia de una conducta (expresada por un criterio objetivo).
  2. Su aparición repetida en varios momentos.
  3. Su ocurrencia en más de una situación.
  4. Su covariación con otros comportamientos.
  5. Su contrastación con diversos métodos.
Silva (1989) ha criticado este concepto, y en la opinión de los autores del libro no existen diferencias importantes -aunque sí algunas- entre los requerimientos base de la exactitud y los conceptos de fiabilidad y validez.

Sí existe una diferencia conceptual de matiz entre exactitud y validez, Johnston y Pennypacker (1980), ésta estriba en que con exactitud se está implicando la existencia de una verdadera medida independiente, mientras que la validez conlleva la ausencia de tales valores, por lo que éstos deben ser estimados mediante criterios de validación, los cuales aluden, necesariamente, a su naturaleza conceptual. Para entender mejor estos conceptos, hay que diferenciar tres tipos de datos:
  1. Datos que nos proporcionan una medida exacta de lo que queremos medir. Registramos la ocurrencia-no ocurrencia de un hecho perceptible. La medición está libre de error de medida. P. ej. La presentación-no presentación de la conducta de fumar.
  2. Aquellos datos también referidos a conductas observables y objetivas y que están sujetos a una interpretación, es decir son datos estimables. P. ej. si el sujeto fuma mucho o poco.
  3. Aquellos datos procedentes de una conducta observable que nos van a servir para inferir algo no observable. P.ej. de determinadas conductas como golpear, insultar, etc. se pretende inferir un característica como la “agresión”. Es en este tipo de datos donde existen mayores probabilidades de que se cometan errores en la medición.
Volviendo a las comparaciones entre fiabilidad, validez y exactitud, la exactitud será aplicable tanto a los datos que son en sí mismos exactos como a aquellos que siendo estimables presentan una medida verdadera independiente.
En resumen, al elegir un instrumento estándar de evaluación tendremos que tener en cuenta el tipo de criterio utilizado en su construcción y juzgar la bondad de éste.

Garantías de los datos

Una cosa es que los instrumentos estándar de evaluación presenten las garantías científicas necesarias y otra que los resultados obtenidos de los distintos procedimientos de medida sean rigurosos. Cuanto mejores instrumentos utilicemos, tanto más adecuadas garantías presentarán nuestros datos, si hemos seguido con minuciosidad y rigor las consignas de los constructores de estas técnicas.

La conceptualización sobre las garantías científicas que proponemos deben ofrecer nuestros datos, recogidos en el transcurso del proceso evaluador, procede de la teoría de la generalizabilidad. En este marco, una medida conductual es entendida como una muestra de la total colección de observaciones posibles; interesa obtener una puntuación sólo porque ella es representativa de alguna de las facetas o universos a los cuales se pretende generalizar.

En la Teoría de los Tests se habla de una puntuación verdadera y de una puntuación observada entre las cuales media el error de medida. La puntuación que obtenemos cuando intentamos medir un aspecto de un sujeto (Xo) es igual a la puntuación que realmente tienen el sujeto en eso que queremos medir (Xv) más una puntuación de error (Xe):

En torno a esta afirmación gira la teoría de tests clásica. La teoría de la generalizabilidad prefiere hablar en lugar de puntuación verdadera, de puntuación universo, para enfatizar que lo que el evaluador hace es una inferencia desde una muestra de datos observados a un conjunto de datos de interés y propone que existen distintos universos a través de los cuales los datos obtenidos podrían ser generalizados.. En esta terminología las observaciones son descritas en términos de condiciones, esto es, la tarea o estímulos presentados al sujeto, el día y la hora en que se regitra la conducta, el observador que puntúa, etc. El término general que hace referencia a la condición de una cierta clase es la faceta, siendo ésta la que sola, o en combinación, define los universos.

Cone (1977) propone seis universos a través de los cuales deben ser generalizados lo datos procedentes de una evaluación conductual:

1. Generalizabilidad de las puntuaciones

Este universo de generalizabilidad implica la siguiente pregunta: ¿ en qué medida los datos procedentes de un evaluador son generalizables a los obtenidos por otros evaluadores? Nos referimos a lo que desde la perspectiva de la psicometría clásica se denomina objetividad o fiabilidad interjueces. Lo que se pretende es constatar la medida en la cual los datos obtenidos no dependen de la persona que los obtiene. Existen datos procedentes de las técnicas estándar que presentar garantías de objetividad. P. ej. el MMPI, algunos de los subtests de las Escalas de medida de la inteligencia de Wechsler, los registros poligráficos, etc. Existen datos procedentes de otros procedimeintos de la Evaluación que requieren el establecimiento de su objetividad para ser tenidos en cuenta. P. ej. lo procedimientos de observación requieren la utilización de más de un puntuador, con el fin de contrastar el acuerdo entre jueces.
En resumen, deberemos contrastar que los datos obtenidos por nosostros son generalizables a otros evaluadores, es decir, que sean objetivos.

2. Generalizabilidad de los elementos

Este universo de generalizabilidad implica la siguiente pregunta: ¿hasta qué punto los respuestas dadas a los elementos de un test son representativas del amplio universo de elementos implicados en el mismo ámbito de contenido y/o de unos elementos del test se puede generalizar a otros? Esta pregunta hace referencia a lo que, desde la perspectiva de la psicometría clásica, se denomina “validez de contenido”, así como a la fiabilidad, entendida como “consistencia interna”.

3. Generalizabilidad temporal

Este universo de generalizabilidad implica la siguiente pregunta: ¿hasta qué punto los datos obtenidos en un determinado momento son extensibles a otros momentos de la vida del sujeto? Si los datos que recogemos en un momento se repiten en otros períodos, podríamos hablar de estabilidad de nuestras mediciones o, también, de que hemos obtenido una adecuada fiabilidad test-retest desde la perspectiva de la psicometría clásica, o de la posibilidad de generalizar nuestros datos a un universo temporal desde la teoría de la generalizabilidad. Con datos procedentes de la observación, la autoobservación o los registros psicofisiológicos , por ejemplo, suele presentarse una importante fuente de error, la reactividad, la cual puede hacer que el sujeto responda, en un primer momento, de forma no habitual y que por tanto, los datos registrados hoy puedan no contrastarse en otros momentos.
Dos son los procedimientos garantes de la generalizabilidad temporal de los datos: El establecimiento de períodos de habituación en la recogida de información y la obtención de estabilización de la medida previa a la finalización de la observación ( o la introducción de un tratamiento).
En resumen, el evaluador ha de cerciorarse de que la conducta observada o la atribución realizada, no se ha dado de forma aleatoria o casual, sino que, en el caso de que así sea esperable, aparece de forma estable en nuestro sujeto.

4. Universo de generalizabilidad de las situaciones

Este universo de generalizabilidad implica la siguiente pregunta: ¿hasta qué punto los datos obtenidos en una situación son esperables en otras situaciones? Con ello estamos haciendo referencia a la validez ecológica en cuanto a la posibilidad de que los datos recogidos en situaciones artificiales de laboratorio sean generalizables a la vida real del sujeto. El muestreo intersituacional permite la obtención de datos representativos al respecto. La validez ecológica de la evaluación puede comprobarse a través de la concordancia que las medidas procedentes del laboratorio tengan con las medidas obtenidas en situaciones naturales, así como con la utilización de estas últimas de modo prioritario en Evaluación.

5. Universo de generalizabilidad de los métodos

Este universo de generalizabilidad implica la siguiente pregunta: ¿en qué medida los datos procedentes de un método de evaluación son generalizables a otros que evalúen el mismo contenido? Desde una perspectiva general la pregunta hace referencia a la validez convergente y concurrente (de constructo o predictiva) de los intrumentos de evaluación. A nosotros lo que nos interesa es hasta qué punto los datos obtenidos a través de distintos procedimientos son convergentes entre sí en el sujeto explorado.
Tales concordancias dependerán, por un lado, de los sesgos especiales de los procedimientos de evaluación, así como el tipo de comportamiento evaluados y de la modalidad de respuesta a la que éstos pertenezcan. En todo caso, la apreciación de la consistencia intermétodos en el psicodiagnóstico de un solo sujeto habrá de ser valorada de forma racional por la complejidad que dicha consistencia entraña, aunque pueda adecuarse como una fase más en el conjunto del proceso a los planteamientos de la teoría de la decisión.

6. Universo de generalizabilidad de las dimensiones

Este universo de generalizabilidad implica la siguiente pregunta: ¿hasta qué punto las propiedades o estimaciones de una conducta son generalizables a otras conductas o atributos? Con esta conducta se está haciendo referencia a la “validez de constructo” en la Psicometría clásica. Lo que tratamos aquí es de conocer en qué medida una serie de conductas, que teóricamente saturan una misma variable, se dan con esta asociación en nuestro caso concreto o, también, si distintas modalides de respuesta, que teóricamente han de verse asociadas, covarían entre sí. Existe dificultad en la valoración de este extremo por la complejidad de establecer separadamente la varianza debida a la dimensión.

Garantías del proceso

El proceso en evaluación implica un procedimiento de validación de hipótesis que en sí mismo reúne una serie de garantías científicas. Esto se cumple en tanto en cuanto las hipótesis formuladas se basen en hechos bien establecidos empíricamente y en adecuadas observaciones sobre el caso, los instrumentos utilizados en su verificación cuenten con aceptables garantías, así como que todos los datos, base de las conclusiones, sean rigurosos. Pero aún cabe preguntarse si el propio proceso y las decisiones en él tomadas podrían adecuarse a modelos a través de los cuales obtener pruebas empíricas de su valor. Los autores posibilitan esto desde dos perspectivas: mediante la aplicación de la teoría de decisiones y la validación de todo el proceso mediante diseños experimentales.

Teoría de la decisión y su aplicación en Evaluación psicológica

Coombs, Dawes y Tversky (1975) definen la teoría de la decisión como el estudio de la forma en que las decisiones son tomadas o deberían serlo. Podemos considerar toda decisión como la elección entre los elementos de un conjunto: cuando un sujeto toma una decisión, lo que hace es elegir, por medio de un criterio, entre las posibilidades o alternativas, que tienen lugar en unas determinadas circunstancias o condiciones. Estos dos conceptos “condiciones de decisión” y “criterio de decisión” son fundamentales en el ámbito de la Teoría de la Decisión. Dentro de las condiciones de decisión (certeza, riesgo, incertidumbre y conflicto), las decisiones tomadas bajo riesgo y baja incertidumbre son las que comúnmente se le presentan al evaluador.
A la hora de tomar decisiones debe contarse con las actitudes de los sujetos frente a las posibles acciones alternativas: “con frecuencia, sólo se pueden discutir con sentido las ganacias en función de la satisfacción subjetiva deducida, por el que ha de tomar la decisión, de las consecuencias observables posibles o, para ser más preciso, en función del concepto económico de utilidad” Morgan (1971).
La función de utilidad es la consideración más idónea en cuanto a su aplicación a la Evaluación psicológica. La razón fundamental de esta elección estriba en que es la utilidad de la evaluación, de la orientación, selección o tratamiento, lo que el psicólogo debe tener en cuenta al situarse ante un cliente. Macià (1981), esta técnica comienza asignando probabilidades a cada uno de los sucesos mutuamente exclusivos y complementarios que se consideran posibles, basándose en la evidencias disponibles nomalmente, que pueden ser totalmente subjetivas. Las probabilidades iniciales se denominan probabilidades a priori; las que resultan del proceso de revisión se denominan probabilidades a posteriori. Esta probabilidad posterior es información adicional sobre la anterior y, por tanto, no la sustituye totalmente.
El proceso de decisión bayesiana consiste en hacer máxima la ganancia en nuestras acciones o en minimizar nuestras pérdidas. La estadística bayesiana, a diferencia de la clásica, utiliza no sólo la información obtenida empíricamente, sino cualquier tipo de información disponible y que sea relevante para el problema que se está resolviendo.
La aplicación de la Teoría de la Decisión a la Evaluación psicológica está aún sin desarrollar totalmente, por lo que implica más un cauce de evoluciones futuras que un marco al que deba ceñirse la Evaluación en la actualidad.

Diseños de investigación

Los diseños pueden ser clasificados en:
  • Diseños intersujetos.
  • Diseños intrasujetos.
  • Diseño n = 1, o de caso único.
La distinción entre los diseños inter e intrasujetos obedece a que los conjuntos de puntuaciones que van a ser comparados sean o no independientes. En los diseños intersujetos, contamos con tantos grupos de sujetos equivalentes como condiciones experimentales o tratamientos van a ser aplicados. Los sujetos se asignan aleatoriamente a cada uno de los grupos y se establecen tantos grupos como condiciones experimentales vayan a utilizarse. Tendríamos pues diseños de dos o más grupos. Este tipo de diseños intersujetos suele ser utilizado en investigación básica con el fin de realizar comparaciones entre la efectividad de distintos tratamientos o intervenciones y, por lo general, no suele ser aplicado cuando se trata de modificar la conducta de un sujeto o grupo delimitado de sujetos, al menos cuando no se persiguen esos objetivos básicos.
Suele ser frecuente que a un grupo de sujetos (familia, habitantes de una institución escolares de una determinada clase, etc.), tras una evaluación psicológica, se le pase a aplicar uno o varios tratamientos con el fin de producir cambios en la conducta y verificar, con ello, las hipótesis formuladas sobre el caso. En estas situaciones habremos de utilizar diseños intrasujetos, los cuales se caracterizan porque los distintos tratamientos o condiciones experimentales se administran a los mismos sujetos. En el diseño intersujeto comparamos las calificaciones entregrupos que han sido tratados de distinta manera. En el diseño intragrupo, los mismos sujetos son tratados de diferente manera a diferente tiempo y comparamos sus calificaciones como una función de los tratamientos experimentales diferentes.

Distintas formas que pueden presentar este tipo de diseños:
  1. Dos condiciones experimentales y muchos sujetos. Tenemos una V.I. que toma dos modalidades y en ellas se mide la V.D. en todos los sujetos.
  2. Varias condiciones experimentales y muchos sujetos. Una V.I. que toma varias modalidades por las que también, tienen que pasar todos los sujetos.
  3. Dos o más VV.II. con dos o más condiciones experimentales para cada una de ellas, también llamado diseño factorial intrasujeto. Cada combinación de tratamientos se aplica sucesivamente a cada sujeto.
  4. Los diseños mencionados requieren un máximo de control en la situación experimental con el fin de conseguir la validez interna. En la aplicación de tratamientos derivados de una evaluación, es difícil mantener tales controles. Por otra parte no se pretende que los resultados de las intervenciones sean generalizables, sino simplemente provocar los cambios deseados en la conducta de los sujetos. Resulta, en ocasiones más eficaz y oportuno trabajar con el diseño llamado intragrupo, diseño n = 1, de caso único o intrasujeto.
Un característica general de todo tipo de diseño experimental estriba en que en ellos se establecen comparaciones entre conjuntos de puntuaciones. La diferencia entre los distintos tipos de diseño está en la procedencia de tales conjuntos. Así, en los diseños intergrupo se comparan puntuaciones procedentes de los distintos grupos de sujetos; en los diseños intragrupo los conjuntos de puntuaciones proceden del mismo grupo mientras que en los diseños intrasujeto se comparan distintas puntuaciones procedentes de un mismo sujeto. Se aplican diseños n = 1 a grupos de sujetos o individuos, en tanto en cuanto éstos sean considerados como una unidad. Así, un solo caso puede ser un individuo, un grupo de sujetos tomados unitariamente, etc.

Compartir