Saltar al documento

Test-psicometrico confiabilidad-y-validez

Asignatura

Psicometría (62012060)

368 Documentos
Los estudiantes compartieron 368 documentos en este curso
Universidad

UNED

Año académico: 2017/2018
Subido por:
Estudiante anónimo
Este documento ha sido subido por otro estudiante como tú quien decidió hacerlo de forma anónima
UNED

Comentarios

Inicia sesión (Iniciar sesión) o regístrate (Registrarse) para publicar comentarios.

Vista previa del texto

Psicometria: Tests Confiabilidad y Validez Jaime Aliaga Tovar En las ciencias se miden las de los objetos que estudian. La es una ciencia y para medir los atributos o del ser humano utiliza como instrumentos a los tests. Estos pueden ser tests proyectivos o tests Los tests son los que utilizan el concepto de y tienen su fundamento en la El primer test fue la Escala de la Inteligencia creada por los franceses Binet y Simon (1905), con la que se introdujo en el concepto de edad mental. Uniendo este concepto con el de edad el William Stern (1912) el concepto de Cociente Intelectual o CI. Por otro lado, el Cuestionario de Datos de Personalidad de Robert S. Woodsworth (1916) es reconocido como el primer test de personalidad. Desde las primeras del pasado siglo los tests han sido construidos el enfoque de la de los Tests, creada por el Charles Spearman en la segunda del siglo en las tres del mismo siglo otro enfoque para la de tests que ha sido llamado de Respuesta al (TRI), pero hay pocos tests basados en esta Los tests han tenido un gran avance relacionado con los avances de la que es la rama de la que se ocupa de las mediciones mentales. Tests son por ejemplo la Escala de Inteligencia para Adultos de Wechsler (WAIS) y su contraparte para (WISC), del mismo otro test de reconocido prestigio es el Test de Matrices Progresivas de por otro lado, en personalidad, tests son, por ejemplo, el Inventario de la Personalidad de Minnesotta (MMPI), el 86 Cuestionario 16PF de Cattell y el Inventario de la Personalidad de Eysenck (EPI). ENFOQUE ACTUAL El enfoque actual sobre los tests lo haremos empezando por la de la hasta llegar a una breve de la de la respuesta al (TRI), tratando de paso otros conceptos necesarios para comprender la realidad de los tests Una disciplina de la cuya finalidad es la de aportar soluciones al problema de la medida en cualquier proceso de es un campo que incluye y usos de la en que se incluyen aspectos meramente y otros de La perspectiva incluye las que tratan de las medidas en de describirlas, categorizarlas, evaluar su utilidad y como la de nuevos y modelos que permitan mejores instrumentos de medida. La perspectiva se ocupa tanto de aportar instrumentos adecuados para conseguir buenas medidas como de los usos que de los mismos se puedan realizar. Estos instrumentos son los tests Finalmente, la se distingue por el uso del lenguaje formal y estructurado de las En la la y las ciencias sociales se trata de medir aspectos que no son ni directamente observables. La Nunnally (1987) consiste en reglas para la de a objetos en tal forma que representen cantidades de atributos. La palabra se usa en un sentido amplio e incluye personas. En medir es dar la magnitud de cierta propiedad o atributo, por ejemplo, la inteligencia, la 88 g) Si las condiciones no cambian, la del examen debe conducir siempre al mismo resultado, o a otro muy (fiabilidad) (Pichot, 1996). Se llama al proceso mediante el cual se establecen procedimientos para la e de un test (Cronbach, 1972). Cuando las condiciones de y del test bien definidas y su es en todos los sujetos examinados, entonces el aspecto importante que queda por resolver es la de las puntuaciones logradas por los sujetos evaluados. Esta se realiza comparando el puntaje obtenido por el sujeto con las puntuaciones contenidas en el baremo o tablas de normas. de los puntajes de un test estandarizado Los que arrojan la de un atributo realizada con un test se denominan puntajes o calificaciones directas. Estos puntajes en mismos no tienen un significado preciso, adquieren un significado cuando se les compara con una tabla de normas o baremo, que ha sido previamente construida con las puntuaciones que en el test han obtenido un grupo de sujetos llamado grupo normativo. Al realizar esta se puede hacer la de los sujetos examinados con lo cual se llega a cumplir la finalidad del test, que es clasificar a los sujetos examinados. Los puntajes directos se transforman en varios tipos de puntajes derivados o unidades de que se presentan en las tablas de normas o baremos. Un baremo es una tabla que sistematiza las normas del del grupo normativo en el test que trasforman los puntajes directos en puntajes derivados que son interpretables Puntajes derivados son los siguientes: a) percentiles, puntaje derivado que tranforma el puntaje directo en una escala del 1al 100, cada uno de los puntos un centil. Un examinado que tiene un puntaje Jaime Aliaga 89 directo equivalente al percentil 80, se dice que supera al del grupo normativo en el aspecto b) puntajes que son aquellos que tienen como unidad a fracciones de la ejemplos: el puntaje CI, el puntaje eneatipo (escala del 1 al 9), el puntaje decatipo (escala del 1 al 10), entre otros. es un puntaje derivado la edad mental. de los tests Hay varias clasificaciones. Presentamos la siguiente Criterio Por su forma de dar las instrucciones (aunque en algunos casos hay que ejemplificar lo que se quiere que el sujeto realice en la tarea, como en el caso de personas con problemas auditivos) Por su Individual Colectiva Autoadministrada Por la forma o tipo de Objetivas respuesta que exigen Subjetivas Por el material de la prueba y papel Verbal completamente De (material, manual, visomotor) De aparatos especiales de los tres primeros (Ej.: WAIS) su forma de Manual Por sus edades de Pruebas para infantes (ba test) Pruebas para preescolares Pruebas para escolares Pruebas para adolescentes Pruebas para adultos su libertad de Pruebas de poder (power test) Pruebas de rapidez (speedy test) Jaime Aliaga 91 3) Se deben construir normas para los grupos en los cuales se el test, si esos grupos difieren de aquellos en los cuales se hicieron los baremos que aparecen en el manual de la prueba. 4) Un test aprecia la medida tal como se dan en el individuo en el momento de de la prueba. Si las condiciones que influyen sobre el individuo se modifican, existe la posibilidad de que tales cambios influyan en los puntajes resultantes del test. 5) Los resultados de un test no deben emplearse para diagnosticar per se estados Deben considerarse como elementos de que juiciosamente analizados e integrados con otros elementos de al 6) descriptivas (inteligencia muy superior, superior, etc.) deben utilizarse para los tests cuyos puntajes le dieron origen. Por ejemplo, la tabla de del WAIS debe ser utilizada con este test y no con otro (Anastasi, 1982). Secciones o partes de un test Un test tiene generalmente las siguientes secciones o partes: 1. El test propiamente dicho. 2. El manual del test. Documento que contiene los siguientes o partes: a) de los objetivos de la prueba mide). Generalmente empieza con un resumen mostrado en la FICHA b) de las estructurales del test (sus partes y componentes). c) acerca del proceso de o d) Instrucciones generales sobre la manera de aplicar o administrar la prueba y del tipo de en la cual es aplicable. e) del material de examen propiamente dicho a las instrucciones detalladas para la del test o de cada uno de los subtests. f) Instrucciones para las valoraciones de las respuestas obtenidas en cada uno de los subtests. 92 g) y acerca de las propiedades de la prueba como instrumento de medida, vale decir, confiabilidad y validez. h) Tablas de normas o baremos con los puntajes directos y convertidos para los diferentes grupos de edades y poblaciones (poblaciones de referencia y grupos normativos adecuadamente descritos). Los puntajes convertidos son, usualmente, los percentiles y los puntajes (Cronbach, 1972). Cualidades que debe tener un test Confiabilidad La confiabilidad (o consistencia) de un test es la con que el test mide lo que mide, en una determinada y en las condiciones normales de (Anastasi, Aiken, 1995). (Las condiciones normales de se refieren a las condiciones especificadas en el manual del test). La falta de confiabilidad de un test esta en con la del error. Se considera que el error es cualquier efecto irrelevante para los fines o resultados de la que influye sobre la falta de confiabilidad de tal El error es de dos tipos: a) Error constante que se produce cuando las mediciones que se obtienen con una escala son mayores o menores que lo que realmente deben ser. b) Error causal (al azar o no que se produce cuando las medidas son alternativamente mayores o menores de lo que realmente deben ser. Este tipo de error interviene cuando se afecta la confiabilidad de un test Este error tiene que ver con la salud, fatiga, emocional, fluctuaciones de la memoria, condiciones externas de luz, humedad, calor, por problemas del momento, familiaridad con la prueba, que presenta el examinado al momento de dar el test (Rey, Brown, 1982). se presenta la confiabilidad de un test La confiabilidad se presenta por medio del coeficiente de confiabilidad (rxx) y del error de medida (EEM). 94 confiabilidad, son las conocidas la KR20 y la KR21. Actualmente, un coeficiente utilizado es el coeficiente alfa de Cronbach Anastasi, Aiken, 1995). B) Error de medida Por medio de este error de medida se estima el intervalo probable de puntajes en el cual se el puntaje verdadero de un sujeto examinado con un test El error de medida (EEM) se obtiene a de la siguiente EEM s 1 rxx Donde: s de los puntajes de la rxx Coeficiente de confiabilidad del test. 1 Constante. Obtenido el EEM, debemos escoger el nivel de confianza: Nivel de confianza del PD 1 EEM. Nivel de confianza del PD 2 EEM. Para el nivel de confianza del la es la siguiente: concluir, con un de confianza, que el puntaje verdadero de un sujeto en la zona o intervalo comprendido entre su puntaje directo u obtenido (PD) y 1 El nivel de confianza usado en es el del puntaje verdadero de un sujeto se encontrara en el intervalo comprendido entre su puntaje obtenido o directo (PD) y 2 Validez Si tenemos una prueba nos al creer que su titulo nos dice lo que la prueba mide, pues cualquier persona puede reunir un conjunto de reactivos y esperar a obtener una medida, por ejemplo, de razonamiento o de las estrategias de aprendizaje. La de lo que la prueba mide no responde a la pregunta llama el autor a la prueba?, sino bien hacen referencia los puntajes obtenidos en esta?, el uso o la de las puntuaciones de este test?, generalizaciones se pueden hacer apropiadamente a partir de la en esta prueba? (Thorndike, 1989). En esencia, el trasfondo de estas preguntas es determinar son los procesos mentales que pone en juego el test. Ahora bien, el responder a las Jaime Aliaga 95 citadas interrogantes necesita de una larga y compleja que en se denomina proceso de a) entre la validez y la confiabilidad el error. La entre confiabilidad y validez se basa en lo que consideramos como error. En la validez interesan los errores constantes o y en la confiabilidad los errores aleatorios o no El siguiente ejemplo nos precisar la diferencia entre ambos tipos de error: Supongamos que un reloj es adelantado 20 minutos. Si se trata de un buen cronometro el tiempo que marca confiable (es decir consecuente), pero no valido en con el tiempo (hora GMT). b) de validez. En la validez se define como la de la varianza verdadera que es relevante para los fines del examen. Con el relevante nos referimos a lo que es atribuible a la variable, o que mide la prueba. En este sentido, generalmente la validez de un test se define ya sea por medio de (1) la entre sus puntuaciones con alguna medida de criterio externo, o bien (2) la con la que la prueba mide un rasgo suacente o En la validez es un concepto que ha pasado por un largo proceso evolutivo, desde aquella que que test es para aquello con lo que (Guilford, 1946, citado en 1996, p. 52), hasta la reciente que la entiende como un juicio evaluativo global en que la evidencia y los supuestos respaldan la suficiencia y lo apropiado de las interpretaciones y acciones en base a los puntajes de las pruebas, que son no de los sino de la forma de responder de las personas como del contexto de la Es decir, lo que se valida no es la prueba sino las inferencias hechas a partir de la misma, lo que tiene dos importantes consecuencias: a) el responsable de la validez de una prueba ya no es solo su constructor sino el usuario, y b) la validez de una prueba no se establece de una vez por todas sino que es resultado del acopio de evidencias y supuestos que se dan en un proceso evolutivo y continuo que comprende todas las cuestiones Jaime Aliaga 97 estrategia distinta para la de las evidencias (Vidal, 1996, en 1996). En el estudio de la validez de constructo estas evidencias relacionadas a cinco aspectos: a) Contenido (relevancia y representatividad del b) Sustantivo (razones de la consistencia observada de las c) Estructural interna del test y d) (grado en que las inferencias hechas a partir del test se pueden generalizar a otras poblaciones, situaciones o e) Externo (relaciones del test con otros tests y f) Consecuencia (consecuencias y sociales del test) (Messick, 1995). d de la validez. La validez empieza a considerarse como el grado en que cada test refleja el constructo que dice medir y que las relaciones entre tests que miden distintos constructos reflejan las relaciones hipotetizadas entre ellos. En este sentido, al estimarse que la validez de un test es la validez de constructo la que ha de hacerse en un marco ya no se tiende a hablar de tipos de validez sino de o estrategias de comprendiendo a los tipos tradicionales de validez: validez de contenido, validez y validez de constructo. Si tenemos en cuenta que lo que se valida no es el test sino las inferencias hechas a partir del mismo, cada tipo de inferencia una estrategia distinta. (Vidal, 1996, en 1996). (1) Validez de Contenido (evidencia del que constituyen el test son realmente una muestra representativa del dominio de contenido o dominio conductual que nos interesa? Es conveniente precisar que un dominio o campo conductual es una de todos los reactivos posibles que cubren un particular. Al hablar de este conjunto de reactivos posibles, se emplean los de dominio, universo o conductual como Por ejemplo: Un test de vocabulario debe ser una muestra adecuada del dominio o universo de posibles en esta La validez de contenido consiste en determinar lo adecuado del muestreo de reactivos del universo de reactivos en este sentido, es una de lo adecuado del muestreo. Ponemos entre comillas debido a que este tipo de validez consiste en 98 una serie de estimaciones u opiniones, que no proporcionan un cuantitativo de validez (para su no se utiliza procedimientos Este tipo de validez se asocia fundamentalmente a los tests de aprovechamiento o rendimiento (test de historia, aunque no existen razones para que no pueda aplicarse a los otros tipos de pruebas (pruebas de aptitudes, habilidades, Para su se compara los reactivos del test con el dominio conductual del contenido postulado. Por ejemplo: si tenemos una lista de 500 palabras que esperamos que los estudiantes de un curso sean capaces de escribirlas correctamente al final de este, su performance o rendimiento respecto a estas palabras importante solamente en tanto que proporciona una prueba de su habilidad para escribir correctamente las 500 palabras. El test que construyamos una muestra de las 500 palabras, pero validez de contenido en la medida en que proporcione una muestra adecuada de las 500 palabras que represente. Si seleccionamos solamente palabras o o palabras que representen ciertos tipos de faltas comunes de propensos a obtener una validez de contenido muy baja. En consecuencia, el aspecto clave en la validez de contenido es el muestreo de los reactivos. En otras palabras, la validez de contenido es de determinar si la muestra de sus reactivos es representativa del universo o dominio conductual de al que supuestamente representa. Para hacer esta se recurre a (o expertos, generalmente en impar). El proceso es y racional, los distintos jueces pueden no estar de acuerdo en la validez de contenido de un por ejemplo, la falta de claridad en la especificidad del dominio conductual, que resulten los juicios de validez de contenido. Existen algunos para valorar el grado de acuerdo de los jueces en torno a los reactivos, por ejemplo el coeficiente V de Aiken. Un procedimiento para que el proceso de de los reactivos sea lo objetivo posible, es el siguiente: El constructor de la prueba: Define el dominio del contenido por medio de una que lo debe delimitar claramente. 100 Para este logro es necesario que los criterios externos con los cuales se las puntuaciones del test sean criterios validos y confiables. Un criterio es cualquier que los sujetos tienen en la vida real, por ejemplo, las medidas de rendimiento medidas de rendimiento laboral, clasificaciones En muchos casos resulta imposible hallar un criterio no ambiguo de un rasgo mental. Por ejemplo, dos Carla y Abel, que investigan el rasgo de aptitud pueden emplear diferentes criterios externos para correlacionar los puntajes del test que han creado. Carla puede considerar que el criterio externo adecuado son las calificaciones que reciben los sujetos en un curso de en mientras que Abel puede considerar como criterio el periodo de tiempo que gastan los estudiantes en aprender una tarea y sencilla durante el entrenamiento en un fabrica. sucede si las pruebas que emplean ambos correlacionan 0 con uno de los criterios, y 0 con el otro?, podemos afirmar que la prueba es valida cuando arrojan resultados de cierta clase?, trata en verdad de una prueba de aptitud En a situaciones como esta se llego a la de que la de un test es un proceso largo y no un hecho aislado. Solamente a de estudios de con una amplia variedad de criterios podremos comprender que mide la prueba. una serie de investigaciones sobre la de actitud nos puede demostrar que en realidad esta midiendo la habilidad para realizar movimientos fino y cuidadosamente controlados, siendo completamente independiente para comprender las reacciones complejas de la piezas De esta manera el test puede tener una alta con las calificaciones obtenidas en el taller y ninguna con los trabajos e maquinarias. En el proceso de la validez predictiva de un test (y la concurrente) se expresa generalmente por medio de un coeficiente de entre los puntajes y los denominados criterios. Este coeficiente se denomina coeficiente de La de este coeficiente requiere un dominio excelente del utilizado para obtenerlo. del criterio, los procedimientos adquieren vital importancia para obtener esta de validez. Incluso para un mejor es conveniente contar con el dispersigrama o scatergrama o de Jaime Aliaga 101 del coeficiente de entre las puntuaciones del test y las del criterio (3) Validez las puntuaciones del test la de ciertos hechos presentes? Para estimarla se administra el test y se le correlaciona con el criterio. La diferencia con la validez predictiva se da en dos aspectos: a) las medidas del test y del criterio son obtenidas y b) en su uso principal. Respecto a esto se la utiliza principalmente para obtener tests como sustitutos de otros procedimientos menos convenientes por diversas razones. Ejemplos: un test de inteligencia colectiva se compara con uno de inteligencia individual. Los de lesiones cerebrales basados en el test de de bloques (cubos de Kohs) se comparan con El problema principal de este tipo de validez es encontrar tests que sirvan como criterios y confiables. a la validez predictiva requiere un amplio domino de las de y de los procedimientos que se utilizan en su Junto con la validez predictiva es importante en ciertos problemas de aplicada como en educacional, industrial y en general, en la toma de decisiones que debe hacer el en situaciones de etc. (4) Validez de El constructo viene a ser un concepto que forma parte de las que intentan explicar la conducta humana: inteligencia, creatividad, dependencia de campo, etc. La validez de constructo es la de evidencias que apoyan que las conductas observadas en un test son (algunos) indicadores del constructo. Este tipo de validez responde a la pregunta se puede explicar la del La respuesta a esta pregunta puede verse como la de una acerca de una prueba La de la validez de constructo en muchos aspectos como en sus es esencialmente la del El proceso de de constructo implica a partir del establecimiento de deducciones de la a) Formular y relaciones entre elementos del constructo, de con otros constructos de la y con otros constructos externos. Jaime Aliaga 103 7. En el test de ansiedad, los sujetos evaluados por supervisores y colegas como ansiosos, mayores puntuaciones que quienes considerados como no ansiosos (Kline, 1985). Los resultados de los estudios que hagamos realmente no o la completa, puesto que nunca se puede demostrar una en forma solamente se puede aceptar como la mejor de trabajo. Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: a) la prueba puede no medir el b) el marco puede ser permitiendo que se hicieran inferencias incorrectas, o bien c) el del experimento no una prueba apropiada de la La falla del suele ser la falla de detectar, pero no siempre se puede hallar con facilidad el lugar exacto de la falla. La ambigua de los resultados negativos es un inconveniente evidente del procedimiento de de los (Crombach, Kline, 1985). e) Implicaciones en la de un test. El que utiliza un test debe tener en cuenta lo siguiente: a) antes de tomar de decisiones sobre individuos o grupos, debe acumular toda la disponible acerca del b) para la o el test debe estar validado en la donde se va c) en cualquier el debe tener presente que nuestras ideas sobre la naturaleza de los rasgos y sobre todo lo que miden se modifica constantemente con nueva hacer EMPLEADOS PARA ESTIMAR LA VALIDEZ DE a) intrapruebas, cuyas fuentes de evidencia usadas son: la validez de contenido de la prueba, el de los procesos empleados al responderla (p. e., pidiendo que los sujetos en voz alta sus respuestas). Otras estudian la estructura interna de la prueba, mediante el de los y las correlaciones entre los diferentes asimismo, mediante el establecimiento de la homogeneidad a del coeficiente alfa de Cronbach o los coeficientes de (que contribuyen a evaluar la unidimensionalidad del test). b) interpruebas: Utilizan las del factorial (para evaluar los factores que suacen en las intercorrelaciones de las 104 pruebas estudiadas), la validez congruente (en tanto correlaciona los puntajes de la prueba con los puntajes obtenidos en otra prueba de validez ya establecida), los estudios de validez convergente y divergentediscriminante (propuestos por Campbell). c) El de los estudios relacionados con los criterios: Que implican la de grupos (evaluando la capacidad de la prueba para poder diferenciar dos o grupos naturalmente separados o experimentalmente) y los coeficientes de validez (cuando la prueba es aplicada a un grupo de sujetos en los que se estudian criterios relacionados con el constructo estudiado). d) El de la experimental: Se manipula experimentalmente una variable y se observa sus efectos sobre los puntajes de una prueba o la de estos puntajes con criterio. e) El de los estudios de la capacidad de Estos estudios analizan la prueba en una amplia gama de dimensiones o en condiciones diferentes de (p. e., la matriz propuesta por Campbell y Fiske). de respuesta al (TRI) Llamada del Rasgo Latente, es un modelo que permite conocer la proporcionada por cada y crear tests individualizados, es decir, a medida. Es un modelo complejo que se ha popularizado como modelo de Rasch (1980) (aunque el modelo de Rasch es un de la dificultad del pero existe el modelo de dos que tiene en cuenta la o pendiente de la curva, y el de tres que tiene en cuenta el factor azar en la respuesta a de alternativas (Cortada de Kohan, La diferencia principal entre el modelo de la de los Test y este modelo es que la entre el puntaje observado y el rasgo o la aptitud en la es de tipo lineal (PD PV e: puntaje directo del sujeto es igual a su puntaje verdadero el mientras que en los diversos modelos de la TRI las relaciones son funciones de tipo exponencial, principalmente Los postulados de la TRI son: 1) El resultado de un examinado en un puede ser explicado por un conjunto de factores llamados rasgos o aptitudes simbolizados por

¿Ha sido útil este documento?

Test-psicometrico confiabilidad-y-validez

Asignatura: Psicometría (62012060)

368 Documentos
Los estudiantes compartieron 368 documentos en este curso

Universidad: UNED

¿Ha sido útil este documento?
Psicometria: Tests Psicométricos,
Confiabilidad y Validez
Jaime Aliaga Tovar
En las ciencias fácticas se miden las características de los
objetos que estudian. La psicología es una ciencia fáctica y para
medir los atributos o características psicológicas del ser humano
utiliza como instrumentos a los tests. Estos pueden ser tests
proyectivos o tests psicométricos. Los tests psicométricos son los
que utilizan el concepto de medición y tienen su fundamento en la
psicometría. El primer test psicométrico fue la Escala Métrica de la
Inteligencia creada por los franceses Binet y Simon (1905), con la
que se introdujo en psicología el concepto de edad mental. Uniendo
este concepto con el de edad cronológica, el psicólogo alemán
William Stern (1912) creó el concepto de Cociente Intelectual o CI.
Por otro lado, el Cuestionario de Datos de Personalidad de Robert S.
Woodsworth (1916) es reconocido como el primer test de
personalidad. Desde las primeras décadas del pasado siglo los tests
psicométricos han sido construidos siguiéndose el enfoque de la
Teoría Clásica de los Tests, creada por el psicólogo inglés Charles
Spearman en la segunda cada del siglo XX; en las tres últimas
décadas del mismo siglo apareció otro enfoque para la construcción
de tests que ha sido llamado Teoría de Respuesta al Ítem (TRI), pero
todavía hay pocos tests basados en esta teoría. Los tests
psicométricos han tenido un gran avance relacionado con los avances
de la psicometría que es la rama de la psicología que se ocupa de las
mediciones mentales. Tests psicométricos son por ejemplo la Escala
de Inteligencia para Adultos de Wechsler (WAIS) y su contraparte
para nos (WISC), del mismo autor; otro test de reconocido
prestigio es el Test de Matrices Progresivas de Raven; por otro lado,
en personalidad, tests psicométricos son, por ejemplo, el Inventario
Multifásico de la Personalidad de Minnesotta (MMPI), el