Calculadora de Entropía, Redundancia y Densidad del Léxico

El funcionamiento de la calculadora es muy simple ya que únicamente hay que abrir un documento de texto con el contenido que se desea analizar o copiarlo y pegarlo en el cuadro de texto que hay. El botón 'Borrar números' está pensado para eliminar los números de página que hay en ocasiones en los textos copiados a partir de un PDF, ya que de contrario cada uno contaría como una palabra. Al pulsar 'Calcular' se obtendrán las métricas con su interpretación correspondiente.Mientras duran los cálculos el botón cambia su mensaje ya que, dependiendo de la extensión del documento, puede tardar un rato en mostrar los resultados.

Para usuarios de eXeLearning

Para exportar un proyecto a un archivo de texto hay que seguir estos pasos:

Abrir el proyecto que se quiere analizar.
Activar el Modo avanzado en la parte superior derecha de eXeLearning.
En el menú, ir a Archivo > Exportar > Fichero de texto plano.
Se guarda en el dispositivo y ya se puede abrir para analizar con la Calculadora de Entropía, Redundancia y Densidad del Léxico.

Interpretación de la Entropía y la Densidad Léxica Estandarizada según niveles educativos

Nivel educativo	Entropía (bits/palabra)	Descripción Entropía	Densidad Léxica Estandarizada	Descripción Densidad
Primaria	< 7	Contenido simple y limitado	< 65%	Lenguaje repetitivo o limitado
Secundaria	7 - 8	Contenido moderadamente complejo	65% - 75%	Lenguaje variado y enriquecido
Bachillerato y superiores	> 8	Contenido complejo y diverso	> 75%	Lenguaje rico y sofisticado

Esta tabla ofrece una interpretación basada en los niveles educativos junto con una descripción cualitativa de cada valor. Estos rangos pueden variar dependiendo del tema y del estilo de escritura de cada autor. Además, estos rangos no son absolutos, sino que proporcionan una referencia aproximada para la interpretación de la entropía y densidad léxica estandarizada en función del nivel educativo.

Interpretación de la Redundancia en el análisis de un texto

La redundancia es útil para identificar el grado en el cual el contenido presenta información nueva o, por el contrario,repite información.

Descripción	Redundancia en %	Implicaciones para el análisis del texto
Baja redundancia	< 15%	Gran cantidad de información nueva y conocimientos adicionales. El texto presenta una baja redundancia, lo que indica una gran cantidad de información nueva y conocimientos adicionales. Esto puede sugerir que el contenido aborda el tema de manera amplia y diversa, lo que puede resultar en un enfoque más profundo y detallado. Un texto con baja redundancia puede ser más atractivo para el lector y proporcionar una mayor cantidad de información útil.
Redundancia moderada	15% - 35%	Equilibrio entre información nueva y repetición de conceptos. El texto presenta un nivel moderado de redundancia, lo que indica un equilibrio entre la introducción de nueva información y la consolidación de ideas clave. Un texto con redundancia moderada puede ser apropiado en situaciones donde se busca enfatizar ciertos conceptos o facilitar la comprensión del lector. Puede ser especialmente útil en textos educativos o de divulgación.
Alta redundancia	> 35%	Mayor repetición de conceptos y menor cantidad de información nueva. El texto presenta una alta redundancia, lo que indica una menor cantidad de información nueva y conocimientos adicionales en el contenido. Un texto con alta redundancia puede centrarse en aspectos fundamentales de un tema y reforzar conceptos clave. Sin embargo, la alta redundancia puede hacer que el texto sea menos atractivo para el lector y puede no ser adecuado para el análisis profundo de un tema.

Estos rangos pueden variar según el tema y el estilo de escritura de cada persona, así como el tipo de texto (por ejemplo, literatura, ensayos científicos, textos divulgativos, etc.). Además, estos rangos no son absolutos, sino que proporcionan una referencia aproximada para la interpretación de la redundancia en el análisis de un texto.

Descripción de los conceptos

Concepto	Definición	Valor bajo	Valor alto
Entropía	Cantidad de información que aporta cada palabra por término medio. Se expresa en bits/palabra	Contenido más simple y homogéneo	Mayor diversidad y complejidad en el contenido
Porcentaje de redundancia	Proporción del texto que es redundante y se repite, por lo que no aporta información nueva	Mayor cantidad de información nueva	Menor cantidad de información nueva
Densidad léxica estandarizada	Proporción de palabras únicas en relación con el total de palabras del texto, expresada en forma de porcentaje, ajustada mediante un método estadístico de muestreos repetidos del texto para que su longitud no influya en el resultado.	Lenguaje repetitivo o limitado	Lenguaje rico y sofisticado
Entropía máxima	Máxima cantidad de información que puede contener el texto considerando todas las posibles combinaciones de palabras	-	-
Densidad del léxico	Proporción de palabras únicas en relación con el total de palabras del texto, expresada en forma de porcentaje	Lenguaje más repetitivo o limitado	Lenguaje más variado y rico

A continuación presentamos ejemplos concretos con diferentes niveles de complejidad:

Libro	Entropía (bits/palabra)	Redundancia en %	Densidad léxica estandarizada
El ingenioso hidalgo don Quijote de la Mancha (Miguel de Cervantes)	9.62	33.75%	74.7%
La Mare Balena (cuento por Caterina Albert / Víctor Català)	9.41	23.96%	76.1%
On the Origin of Species (Ch. Darwin)	9.16	28.62%	76.2%
Los cómics como fuente histórica (trabajo de investigación de bachillerato de J. Zhan)	8.84	17.75%	74.7%
Los tres cerditos (cuento popular)	7.00	10.84%	63.76%
A un olmo seco (Antonio Machado)	6.37	7.19%	56.6%

Densidad Léxica Estandarizada

Este concepto requiere una explicación adicional, ya que su aplicación es nueva para el fin con el que se usa aquí. La estandarizada es un método estadístico basado en el método estadístico de la rarefacción de la Biología donde se utiliza para comparar la riqueza (diversidad) de especies en hábitats distintos. El tamaño de las muestras (en nuestro caso, la longitud del texto) no influye en el resultado y, por lo tanto, es ideal para aplicar a los documentos escrito.

La densidad léxica estandarizada es una medida que ayuda a comprender la diversidad y variedad del vocabulario utilizado. Para su aplicación, se toman 1000 muestras, cada una formada 100 palabras aleatorias. En cada muestra se cuentan las palabras diferentes presentes y luego se calcula el promedio de todas las muestras. A diferencia de la densidad del léxico, no es sensible a la longitud del texto. La interpretación de la densidad léxica estandarizada es exactamente la misma que la densidad léxica, únicamente se diferencian en que es un método más robusto de obtener la riqueza léxica.

Debido a que se calcula extrayendo palabras aleatorias del texto, puede producir resultados ligeramente diferentes cada vez que se calcula.

Esta medida permite evaluar la riqueza léxica de un texto de manera más equitativa, sin importar su extensión. Un porcentaje más alto de densidad léxica estandarizada indica un vocabulario más diverso y variado, mientras que un porcentaje más bajo sugiere un vocabulario más limitado y repetitivo. Al interpretar este valor, se puede tener una idea de la complejidad y riqueza del lenguaje utilizado en el texto.

Esta calculadora utiliza una metodología específica para contar las palabras y calcular los resultados, estos resultados son una aproximación a la realidad y pueden variar en función de diferentes factores.

Justificación de la herramienta en el artículo: Análisis de la riqueza y complejidad léxica de los recursos de texto.

Creado por Juan José de Haro
con la ayuda de ChatGPT.

Licencia: CC BY-SA

Volver a la página principal