Juan José de Haro · bilateria.org · bilateria.org
Un sistema de evaluación tradicional asigna las mismas preguntas a todos los alumnos en el mismo orden. Esto genera dos ineficiencias:
La evaluación adaptativa resuelve esto seleccionando en cada momento la pregunta más informativa dado lo que ya se sabe del alumno. Para ello necesita tres ingredientes:
Este documento describe la matemática detrás de cada uno de esos tres ingredientes.
En lugar de asignar al alumno un valor fijo (una nota, una etiqueta), el sistema mantiene una distribución de probabilidades sobre un conjunto de hipótesis mutuamente excluyentes y exhaustivas.
Sea \(\mathcal{H} = \{H_1, H_2, \ldots, H_n\}\) el conjunto de hipótesis posibles. Por ejemplo:
En cada momento, el sistema mantiene un vector de probabilidades:
con la restricción:
Este vector expresa el grado de creencia del sistema sobre el estado real del alumno, no una certeza.
Si no existe información previa sobre el alumno, el sistema parte de una distribución uniforme:
Esta elección refleja ignorancia máxima: todas las hipótesis son igualmente plausibles antes de observar ninguna respuesta. Si existiera información previa fiable (resultados de cursos anteriores, diagnósticos previos), podría usarse como distribución inicial justificada.
Para poder usar la función logística que genera las verosimilitudes (véase §4), cada hipótesis \(H_i\) necesita un valor numérico \(\theta_i\) que represente su posición en la escala de dominio. La convención recomendada es centrar los valores en cero con intervalos iguales:
| \(n\) hipótesis | Valores \(\theta_i\) |
|---|---|
| 2 | \(-1,\; +1\) |
| 3 | \(-2,\; 0,\; +2\) |
| 4 | \(-3,\; -1,\; +1,\; +3\) |
| 5 | \(-4,\; -2,\; 0,\; +2,\; +4\) |
Los valores concretos dependen de la escala de dificultad de las preguntas. La relación exacta entre θ y b se explica en §8.
Cuando el alumno responde una pregunta, esa respuesta es una evidencia que debe modificar nuestra estimación de su estado. El mecanismo de actualización es el teorema de Bayes:
donde:
En la práctica, la respuesta \(R\) es binaria: acierto (A) o fallo (F). La actualización toma la forma:
Nótese que el denominador es simplemente una constante de normalización. En la implementación, basta con calcular los numeradores para todos los \(i\) y dividir por su suma.
Si el alumno responde varias preguntas, el proceso se aplica de forma secuencial: el posterior de una pregunta se convierte en el prior de la siguiente. Esto es matemáticamente equivalente a actualizar con todas las respuestas a la vez, siempre que las respuestas sean condicionalmente independientes dada la hipótesis verdadera.
Bajo los supuestos habituales de coherencia probabilística y actualización por evidencia observada, la regla de Bayes es la forma natural de actualizar las probabilidades. Satisface simultáneamente:
Alternativas como las redes de reglas o los sistemas expertos clásicos no tienen estas propiedades y pueden quedar bloqueadas en diagnósticos incorrectos cuando el alumno responde de forma inesperada.
Para aplicar Bayes necesitamos \(P(A \mid H_i, q)\): la probabilidad de que un alumno en el estado \(H_i\) acierte la pregunta \(q\). Esta probabilidad es la verosimilitud.
El sistema necesita generarlas automáticamente a partir de los parámetros de cada pregunta, sin que el docente rellene tablas de probabilidades.
El modelo IRT (Item Response Theory) proporciona una familia de funciones para modelar \(P(A \mid \theta, q)\). El modelo de tres parámetros (3PL) es:
Los tres parámetros son:
| Parámetro | Nombre | Significado |
|---|---|---|
| \(a\) | Discriminación | Pendiente de la curva; controla cuánto separa la pregunta entre niveles distintos |
| \(b_q\) | Dificultad | Valor de \(\theta\) en el que la probabilidad de acierto (sin azar) llega al 50% |
| \(c_q\) | Pseudo-azar | Probabilidad mínima de acierto; en ausencia de datos empíricos, se aproxima como \(c_q \approx 1/m\) |
Cuando \(\theta_i \gg b_q\) (el alumno está muy por encima de la dificultad), el exponente \(e^{-a(\theta_i - b_q)} \to 0\) y:
Cuando \(\theta_i \ll b_q\) (el alumno está muy por debajo de la dificultad), el exponente \(\to +\infty\) y:
Cuando \(\theta_i = b_q\), el argumento del exponente es cero y:
Este es el punto de inflexión de la curva: donde la pendiente es máxima y, por tanto, donde la pregunta es más discriminante.
El parámetro \(a\) controla la pendiente de la curva logística. Su efecto puede verse derivando la ICC respecto a \(\theta\):
La pendiente máxima (en \(\theta = b_q\)) vale:
Un valor alto de \(a\) produce una curva más escarpada: la pregunta discrimina mejor entre alumnos cerca de su dificultad, pero aporta poca información a alumnos claramente por encima o por debajo. Un valor bajo produce una curva más suave: la pregunta es útil en un rango más amplio de niveles, pero discrimina menos.
Los valores habituales en psicometría oscilan entre 0.5 y 2.5. Para sistemas educativos de propósito general, \(a = 1.5\) es un punto de partida razonable.
Esta es la verosimilitud que entra en la actualización bayesiana cuando el alumno falla.
En preguntas de opción múltiple con \(m_q\) opciones, puede usarse \(c_q = 1/m_q\) como aproximación inicial en ausencia de datos empíricos:
En un modelo IRT calibrado, \(c_q\) debería estimarse a partir de datos reales, porque el pseudoazar no siempre coincide con el azar puro: los distractores no son igualmente atractivos y algunos alumnos eliminan opciones antes de responder. Esta probabilidad pertenece a cada pregunta, no al test en conjunto. En respuestas numéricas o de texto exacto donde el azar es irrelevante, se usa \(c_q = 0\).
La entropía de Shannon mide la incertidumbre de una distribución de probabilidades:
Se mide en bits. Por convenio, \(0 \cdot \log_2 0 = 0\).
Entropía mínima. Si una hipótesis concentra toda la probabilidad (\(p_k = 1\), \(p_{i \neq k} = 0\)), la entropía es cero: no hay incertidumbre.
Entropía máxima. Si todas las hipótesis son equiprobables (\(p_i = 1/n\)), la entropía es máxima:
Esto corresponde a la ignorancia total sobre el estado del alumno.
Entropía esperada no creciente. La entropía posterior puede aumentar o disminuir tras una respuesta concreta, según la evidencia observada (como ilustra el ejemplo de §9, donde el acierto en Q2 sube la entropía respecto al paso anterior). Lo que garantiza la selección por máxima ganancia de información es que la entropía posterior esperada —antes de conocer la respuesta— no supera la entropía actual.
Con \(n = 3\) hipótesis:
| Distribución \(\mathbf{p}\) | Entropía \(H\) (bits) | Interpretación |
|---|---|---|
| \((0.33,\; 0.33,\; 0.33)\) | \(1.58\) | Ignorancia total |
| \((0.60,\; 0.30,\; 0.10)\) | \(1.30\) | Incertidumbre alta |
| \((0.80,\; 0.15,\; 0.05)\) | \(0.88\) | Diagnóstico probable |
| \((0.95,\; 0.04,\; 0.01)\) | \(0.32\) | Diagnóstico casi seguro |
| \((1.00,\; 0.00,\; 0.00)\) | \(0.00\) | Certeza absoluta |
La probabilidad de la hipótesis más probable (\(\max_i p_i\)) es un indicador intuitivo, pero la entropía captura más información: distingue entre \((0.80, 0.15, 0.05)\) y \((0.80, 0.19, 0.01)\), que tienen el mismo máximo pero distinta distribución del resto. La entropía es además la cantidad natural que aparece en la ganancia de información (§6), lo que hace el sistema matemáticamente coherente.
El sistema elige la siguiente pregunta buscando maximizar la reducción esperada de entropía. Para cada pregunta candidata \(q\), se calcula la ganancia esperada de información:
donde \(\mathbf{p}'\) es la distribución posterior tras responder \(q\), y la esperanza es sobre los dos posibles resultados (acierto o fallo).
Definimos primero la probabilidad marginal de acierto en la pregunta \(q\), usando la ley de la probabilidad total:
Y la probabilidad marginal de fallo:
A continuación calculamos los posteriores condicionales, aplicando Bayes antes de conocer la respuesta real:
Con estos posteriores calculamos la entropía en cada escenario:
La entropía esperada tras formular la pregunta \(q\) es:
Y la ganancia de información es:
El sistema selecciona la pregunta \(q^*\) con mayor \(IG\):
donde \(\mathcal{Q}\) es el conjunto de preguntas disponibles.
La ganancia esperada de información de la pregunta \(q\) es exactamente la información mutua entre la respuesta \(R_q\) y el estado del alumno \(H\):
donde \(KL\) es la divergencia de Kullback-Leibler. Maximizar \(IG\) equivale a seleccionar la pregunta cuya respuesta, en promedio, más separa el posterior del prior.
En la práctica, varias preguntas pueden tener ganancias de información idénticas o muy próximas, especialmente si comparten los mismos parámetros \(a\), \(b_q\) y \(c_q\). Una selección determinista entre empates produce tests sistemáticamente repetitivos entre sesiones distintas.
La solución recomendada es una selección aleatoria ponderada:
Esto combina máxima utilidad informativa con diversidad temática.
El sistema debe detenerse cuando tenga suficiente confianza en el estado del alumno. El criterio natural es: detener cuando la hipótesis más probable supere un nivel de confianza \(p_{\min}\) (por ejemplo, 0.80).
Sin embargo, comprobar directamente \(\max_i P(H_i) \geq p_{\min}\) puede no ser suficiente, porque no tiene en cuenta cómo se reparte la probabilidad restante. La entropía es un indicador más completo.
Buscamos la entropía de una distribución en la que la hipótesis más probable tiene probabilidad \(p_{\min}\) y la probabilidad restante \(1 - p_{\min}\) se reparte uniformemente entre las otras \(n - 1\) hipótesis:
La entropía de esta distribución es:
Con \(p_{\min} = 0.80\):
| \(n\) hipótesis | \(H_{\max} = \log_2 n\) (bits) | \(H_{\text{stop}}\) (bits) | Fracción de incertidumbre restante |
|---|---|---|---|
| 2 | 1.00 | 0.72 | 72% |
| 3 | 1.58 | 0.92 | 58% |
| 4 | 2.00 | 1.04 | 52% |
| 5 | 2.32 | 1.12 | 48% |
La fórmula de \(H_{\text{stop}}\) asume que la probabilidad restante se distribuye uniformemente, lo cual es una aproximación. Dos distribuciones con el mismo máximo pueden tener entropías distintas:
La segunda tiene entropía menor aunque el máximo sea el mismo, porque la probabilidad está más concentrada. Por tanto, conviene comprobar ambos criterios de forma complementaria:
Ambos criterios no son completamente independientes: cuando \(H_{\text{stop}}\) se deriva del mismo \(p_{\min}\), el criterio de entropía no añade una exigencia distinta al de probabilidad máxima. El criterio de probabilidad máxima garantiza el nivel mínimo de confianza en la hipótesis ganadora; la entropía actúa como control complementario de la incertidumbre global. Como alternativa, puede añadirse un criterio de separación:
que exige no solo que la hipótesis más probable supere \(p_{\min}\), sino que esté suficientemente separada de la segunda candidata.
Además del criterio de entropía, el sistema debe contemplar:
La curva logística del IRT 3PL tiene su pendiente máxima en \(\theta_i = b_q\). Esto significa que la pregunta \(q\) es más discriminante para alumnos cuyo nivel es cercano a la dificultad \(b_q\).
Si el nivel extremo \(\theta_{\max}\) coincide con la dificultad extrema \(b_{\max}\), la pregunta más difícil sitúa al nivel avanzado justo en el punto de inflexión. En ese punto la probabilidad de acierto todavía no es alta: con 4 opciones y \(c_q = 0.25\), vale \((1+c_q)/2 = 0.625\). Por tanto, acertar esa pregunta confirma débilmente el nivel avanzado.
Esto puede hacer que el sistema infrautilice las preguntas extremas: no porque sean inútiles, sino porque otras preguntas pueden producir una reducción esperada de incertidumbre mayor.
Para evitar este problema, el rango de \(\theta\) debe ser estrictamente mayor que el rango de \(b\). En este sistema discreto, se adopta como convención práctica:
El factor 2 es una heurística útil, no una regla universal de IRT estándar. Puede ajustarse según el valor de \(a\), de \(c_q\) y de la probabilidad objetivo de acierto para los niveles extremos. Si se desea que un alumno de nivel extremo tenga una probabilidad objetivo \(P^*\) de acertar una pregunta extrema, puede despejarse:
Así la separación entre escalas queda justificada por una probabilidad deseada, no por un factor fijo.
Ejemplo. Con 3 niveles de dificultad \(b \in \{-1,\; 0,\; +1\}\):
donde \(\sigma(x) = 1/(1 + e^{-x})\) es la función sigmoide estándar.
La forma más robusta es calcular \(\theta_{\max}\) directamente a partir de las dificultades del banco:
y distribuir los valores \(\theta_i\) uniformemente en \([-\theta_{\max},\; +\theta_{\max}]\). Así la escala se adapta automáticamente al banco de preguntas, sin necesidad de ajuste manual.
| ID | Dificultad \(b_q\) | Opciones \(m_q\) | \(c_q\) |
|---|---|---|---|
| Q1 | \(-1\) (fácil) | 4 | 0.25 |
| Q2 | \(0\) (media) | 4 | 0.25 |
| Q3 | \(+1\) (difícil) | 4 | 0.25 |
Para cada par \((\theta_i, b_q)\) calculamos \(P(A \mid \theta_i, q)\) con la fórmula IRT 3PL, \(a = 1.5\), \(c = 0.25\):
Para Q1 (\(b_1 = -1\)):
| Hipótesis | \(\theta_i - b_q\) | \(e^{-1.5 \cdot x}\) | \(\sigma\) | \(P(A)\) | \(P(F)\) |
|---|---|---|---|---|---|
| \(H_1\) | \(-2 - (-1) = -1\) | \(e^{1.5} = 4.48\) | \(0.182\) | \(0.387\) | \(0.613\) |
| \(H_2\) | \(0 - (-1) = +1\) | \(e^{-1.5} = 0.223\) | \(0.818\) | \(0.864\) | \(0.136\) |
| \(H_3\) | \(2 - (-1) = +3\) | \(e^{-4.5} = 0.011\) | \(0.989\) | \(0.992\) | \(0.008\) |
Para Q2 (\(b_2 = 0\)):
| Hipótesis | \(\theta_i - b_q\) | \(P(A)\) | \(P(F)\) |
|---|---|---|---|
| \(H_1\) | \(-2\) | \(0.286\) | \(0.714\) |
| \(H_2\) | \(0\) | \(0.625\) | \(0.375\) |
| \(H_3\) | \(+2\) | \(0.964\) | \(0.036\) |
Para Q3 (\(b_3 = +1\)):
| Hipótesis | \(\theta_i - b_q\) | \(P(A)\) | \(P(F)\) |
|---|---|---|---|
| \(H_1\) | \(-3\) | \(0.258\) | \(0.742\) |
| \(H_2\) | \(-1\) | \(0.387\) | \(0.613\) |
| \(H_3\) | \(+1\) | \(0.864\) | \(0.136\) |
Con prior uniforme \(\mathbf{p} = (0.333, 0.333, 0.333)\), calculamos la ganancia de información para cada pregunta.
Entropía inicial:
Para Q1 (\(b = -1\)):
Posteriores tras acierto:
Entropía posterior si acierta:
Posteriores tras fallo:
Entropía posterior si falla:
Ganancia de información:
Resumen de ganancias (siguiendo el mismo procedimiento para Q2 y Q3):
| Pregunta | \(IG\) (bits) |
|---|---|
| Q1 (\(b = -1\)) | 0.280 |
| Q2 (\(b = 0\)) | \(0.275\) |
| Q3 (\(b = +1\)) | \(0.212\) |
Con \(c_q = 0.25\), la probabilidad de acierto por azar rompe la simetría entre preguntas fáciles y difíciles: un fallo en una pregunta fácil es muy diagnóstico, mientras que un acierto en una pregunta difícil todavía puede explicarse parcialmente por azar. En esta configuración, el sistema selecciona Q1, aunque Q2 queda prácticamente empatada.
El alumno falla Q1. Actualizamos:
Entropía tras el fallo:
La entropía ha bajado de 1.585 a 0.764 bits. El sistema sospecha con bastante fuerza que el alumno es de nivel básico.
Con \(\mathbf{p}^{(1)} = (0.809, 0.180, 0.011)\), el sistema vuelve a calcular las ganancias para Q2 y Q3 (Q1 ya se ha usado). En este estado asimétrico, Q2 resulta más informativa porque ayuda a revisar si el fallo anterior pudo ser accidental.
El alumno acierta Q2 (media). Actualizamos con \(P(A \mid H_i, Q2) = (0.286, 0.625, 0.964)\):
El acierto en la pregunta media desplaza parte de la probabilidad hacia \(H_2\), pero el fallo inicial en una pregunta fácil sigue pesando mucho. El diagnóstico queda entre básico y medio-bajo.
| Paso | Acción | \(P(H_1)\) | \(P(H_2)\) | \(P(H_3)\) | \(H\) (bits) |
|---|---|---|---|---|---|
| 0 | Prior inicial | 0.333 | 0.333 | 0.333 | 1.585 |
| 1 | Falla Q1 (fácil) | 0.809 | 0.180 | 0.011 | 0.764 |
| 2 | Acierta Q2 (media) | 0.652 | 0.318 | 0.030 | 1.080 |
Nótese que el acierto en la pregunta media ha subido la entropía respecto al paso 1: la evidencia ha repartido más la probabilidad entre \(H_1\) y \(H_2\), aumentando la incertidumbre. Esto es correcto: el sistema sigue descartando casi por completo el nivel avanzado, pero ahora duda más entre básico y medio.
Con \(p_{\min} = 0.80\) y \(n = 3\), el umbral es \(H_{\text{stop}} = 0.92\) bits. La entropía actual (1.080 bits) está por encima del umbral, así que el test continúa.
La función logística IRT 3PL asume que las hipótesis tienen un orden: más θ significa más nivel. Esto es adecuado para evaluar dominio, pero no cuando las hipótesis son errores conceptuales alternativos sin relación de orden.
Ejemplo. Supongamos tres hipótesis:
En este caso no existe una escala única de «más o menos nivel». La función logística no es el modelo apropiado.
Alternativa. Definir las verosimilitudes directamente según el diagnóstico esperado de cada pregunta:
| Pregunta | \(P(A \mid H_A)\) | \(P(A \mid H_B)\) | \(P(A \mid H_C)\) |
|---|---|---|---|
| ¿La masa de un objeto cambia en la Luna? | 0.20 | 0.80 | 0.95 |
| ¿Un coche frenando tiene aceleración? | 0.75 | 0.15 | 0.95 |
| ¿La fuerza es proporcional a la masa? | 0.50 | 0.50 | 0.90 |
Estas verosimilitudes las define el docente o la IA a partir del conocimiento sobre qué errores produce cada confusión. La actualización bayesiana es idéntica; solo cambia la fuente de las verosimilitudes.
Las verosimilitudes generadas por la función logística con parámetros asignados por un experto son estimaciones a priori, no medidas empíricas. Un alumno real puede comportarse de forma diferente a lo que predice el modelo.
Si se acumulan datos reales (respuestas de muchos alumnos), los parámetros \(a\), \(b_q\) y \(c_q\) pueden recalibrarse mediante métodos de estimación IRT (máxima verosimilitud marginal, estimación bayesiana de parámetros). Sin datos suficientes, el modelo es una aproximación razonable pero no una medida precisa.
La actualización bayesiana secuencial asume que las respuestas son condicionalmente independientes dada la hipótesis verdadera: conocer \(H_i\) hace irrelevante la correlación entre respuestas. Esta asunción se viola cuando:
El modelo asume que el estado del alumno no cambia durante la sesión. En sesiones cortas de evaluación diagnóstica esto es razonable. En sesiones largas de aprendizaje adaptativo, el alumno puede mejorar durante la propia interacción, lo que haría que el posterior converja hacia una hipótesis que ya no refleja el estado actual.
Si el alumno responde al azar sistemáticamente, el parámetro \(c_q\) solo protege parcialmente: reduce el sesgo upward en las verosimilitudes de acierto, pero no elimina el ruido. Con suficientes respuestas aleatorias, el posterior puede converger hacia hipótesis incorrectas.
Con pocas preguntas, el posterior puede quedar sesgado por coincidencias (una racha de aciertos o fallos no representativa). Imponer un número mínimo de preguntas antes de activar el criterio de parada reduce este riesgo, a costa de alargar la sesión.
El sistema produce una estimación probabilística, no una verdad absoluta. Los resultados deben interpretarse como una ayuda a la decisión educativa, especialmente cuando:
Licencia: CC BY-SA 4.0 · Juan José de Haro · bilateria.org