La semana pasada tuve la oportunidad de asistir a la conferencia que el profesor Alberto Maydeu-Olivares impartió en la Facultad de Psicología de la UAM, como invitado al Máster en Metodología de las Ciencias del Comportamiento y de la Salud. El título de la ponencia era «Cuestionarios de elección forzosa y bondad de ajuste en modelos de teoría de respuesta a los ítems», y tanto la charla como el material presentado fueron de lo más sugerente.
El profesor Maydeu-Olivares ha dedicado bastante tiempo a trabajar sobre los test de elección forzosa o FC (de Forced Choice Test) y las medidas ipsativas, por lo que podéis imaginaros que los asistentes (sobre todo los que teníamos interés en su aplicación más allá del modelado matemático) esperábamos datos y argumentos que nos ayudaran a encajar bien la bondad de los cuestionarios de elección forzosa. Y datos y argumentos hubo. Y buenos. Sin embargo, apuntaban en la dirección contraria.
Tiro de memoria, pero la frase del profesor Maydeu-Olivares bien pudo haber sido esta: «Si se hacen muy bien las cosas, es decir, si aplicamos los modelos psicométricos adecuados a los FC, las propiedades de estos (en cuanto a fiabilidad y validez) son muy similares a las que se obtienen cuando utilizamos los ítems convencionales de los cuestionarios normativos».
Vamos, que el uso de los FC reside más en su validez aparente (para evitar el falseamiento relacionado con la deseabilidad social) que en su capacidad para predecir criterios organizacionales como el desempeño, el aprovechamiento de la formación o la consecución de objetivos.
El planteamiento es coherente con los resultados globales mostrados en el metaanálisis del profesor Jesús Salgado, publicado recientemente con el título The Five-Factor Model, forced-choice personality inventories and performance: A comprehensive meta-analysis of academic and occupational validity studies.
En este artículo se examinan de manera conjunta los resultados de las investigaciones realizadas en la última década, con el objetivo de relacionar las puntuaciones obtenidas con cuestionarios FC y el rendimiento profesional.
Resultado de relacionar puntuaciones de cuestionarios FC y el rendimiento profesional
Sin embargo, una lectura algo más reposada de los resultados que presenta Salgado sugiere algunos planteamientos que, de cara al profesional de recursos humanos, merece resaltar:
Tipos de medidas del test FC
Un Test FC puede arrojar diferentes tipos de medidas con diferentes consideraciones psicométricas. Es el formato de puntuación del test el que determina el tratamiento psicométrico posible y, por tanto, el estudio de su validez y fiabilidad.
Distinguimos tres tipos de medidas del test FC:
- Medidas absolutamente ipsativas. Son aquellas en las que la suma de las puntuaciones obtenidas en todos los atributos medidos es la misma para todas las personas. Es decir, todos los «puntos» disponibles se reparten entre los atributos medidos. Como resultado, las puntuaciones altas en unas dimensiones deben ser compensadas por puntuaciones bajas en otras. Aunque el profesional decide si esta forma de puntuación es un buen reflejo de la realidad que intenta medir, el hecho es que dicha forma de puntuar conlleva importantes limitaciones matemáticas, tanto para establecer índices de correlación como para generar modelos factoriales para explicar la dimensionalidad subyacente o para investigar la fiabilidad de los test.
- Medidas cuasi ipsativas. Son aquellas en las que se relaja el criterio de suma constante. Esto lo consigue, por ejemplo, el Gordon Personality Inventory permitiendo la graduación de las opciones que se comparan. Cuando se elimina esta restricción de suma constante, desaparecen muchas de las limitaciones en el tratamiento psicométrico de estas medidas y, por tanto, pueden ser utilizadas (y comparadas) con otras medidas.
- Medidas normativas. Son aquellas que se obtienen cuando la comparación presentada en el FC corresponde a una misma dimensión. Un ejemplo habitual es aquel en el que se comparan los dos polos de una misma dimensión. En este caso, las medidas obtenidas son completamente normativas pues, en realidad, a partir de un FC se genera una puntuación normativa que es tratada de la misma forma que si se hubiera obtenido mediante un cuestionario normativo tradicional.
La responsabilidad medida con test FC
La responsabilidad (Conscientiousness) medida a través de los FC es la variable de personalidad que mejor predice el desempeño de los trabajadores. En línea con la literatura generada en los últimos 20 años sobre la importancia de la responsabilidad como predictor del desempeño de las personas, tanto su medida mediante FC como mediante cuestionarios normativos arroja resultados similares.
No parece suceder así con el ajuste emocional, que resulta ser un predictor válido cuando se analizan los estudios con cuestionarios normativos, pero deja de serlo cuando nos acercamos desde los FC.
La responsabilidad y desempeño
Conviene destacar que la responsabilidad (el gran predictor) produce, a través de medidas cuasi ipsativas, una correlación con los índices o ratings de desempeño de los trabajadores de casi .40, que es el doble de la validez encontrada en los metaanálisis de la personalidad realizados sobre medidas normativas.
Considerando estos últimos resultados, tal vez la conclusión más evidente sea que, tal como aseveraba en su conferencia el profesor Maydeu-Olivares, es necesario prestar especial atención a cómo obtener medidas solventes desde el punto de vista psicométrico para los Test FC planteados de forma puramente ipsativa. Además, debemos tener en cuenta que la medida cuasi ipsativa de la responsabilidad es un predictor del desempeño de los trabajadores más que relevante, pues, además, es generalizable a través de distintas muestras y puestos laborales.
Yo también asistí a la conferencia del profesor Maydeu, que fue realmente excepcional. Hoy sabemos que cuando el test está formado por ítems (de elección forzosa) como el siguiente:
Elige el adjetivo que te define mejor: “responsable” o “amable”,
y se puntúa de manera tradicional (se suma un punto en la dimensión a la que corresponde el adjetivo elegido) se obtienen, como ha indicado David, puntuaciones ipsativas; es decir, la suma de las puntuaciones de cada persona en las distintas dimensiones es un valor constante. Por tanto, no es posible que alguien tenga, por ejemplo, puntuaciones altas en todas las dimensiones. El tratamiento tradicional de estos tipos de pruebas es de dudoso valor cuando queremos comparar las puntuaciones de los candidatos en un proceso selectivo.
Los profesores Maydeu y Anna Brown han propuesto un modelo (su nombre es TIRT) que permite extraer información normativa de tests de elección forzosa; es decir, que permite obtener puntuaciones que hacen posible la comparación entre individuos. Nuestro grupo de investigación (cátedra Modelos y Aplicaciones Psicométricos) sigue con mucho interés estos trabajos, está proponiendo otros modelos y mejorando los existentes.
Es verdad que cuando se aplica el test en un contexto en el que no quepa esperar problemas serios relacionados con los sesgos de respuestas no se ven las ventajas de los tests de elección forzosa y de estos nuevos modelos que son, por cierto, complicados. Sin embargo, en condiciones en las que cabe esperar sesgos, como son las respuestas socialmente deseables, yo sí esperaría un mejor funcionamiento de los tests de elección forzosa tratados con modelos como los propuestos por el profesor Maydeu.
Gracias Vicente por tu comentario !!! Sin duda se está desarrollando un importante esfuerzo en el desarrollo y mejora de los modelos psicométricos que nos permitan tratar los datos ipsativos de una forma «normativa» . A mi modo de ver hacen falta estas mejoras!!