Módulo E – NL4DISMIS

Evaluación y calidad

Coordinador: Patricio Martínez Barco

El objetivo de esta tarea es asegurar la calidad de los modelos y resultados obtenidos en tareas anteriores. Se realizarán métodos de evaluación tanto intrínsecos como extrínsecos. El primero examina el rendimiento del sistema y la calidad de su salida, y el segundo determina si la aplicación diseñada logra su objetivo. En ambos casos, se aplicarán a cada tarea los modelos comunes de evaluación con el fin de comparar los resultados con el estado del arte, así como medir las mejoras y aportaciones.

Tarea E1. Evaluación intrínseca
Como se indicó anteriormente en el Módulo A, los modelos de lenguaje preentrenados no solo codifican, sino que también amplifican una variedad de sesgos humanos estereotipados, como los relacionados con el género, la raza, la religión, la rareza, etc. La evaluación de los modelos de lenguaje (Huyen 2019) está enfocada principalmente a detectar y medir estos sesgos derivados de los recursos lingüísticos. Nuestro objetivo final es evitar el sesgo tanto como sea posible dado que cuanto menos sesgado sea el modelo de lenguaje, mayor será la calidad del modelo de lenguaje logrado. Si bien en la actualidad el número de recursos y métodos para la mitigación del sesgo es escaso, nuestra propuesta es seguir modelos generales para la evaluación del sesgo intrínseco en línea con Barikeri et al (2021). Asimismo, se evaluará el tratamiento de la información falsa o engañosa (Módulo D) aprovechando varios conjuntos de datos desarrollados específicamente para la evaluación de esta tarea (D’Ulizia et al 2021, Oshikawa et al 2020). Finalmente, la evaluación de entidades digitales y modelos de lenguaje con conciencia de entidad (Módulos B y C) se centrará principalmente en la fiabilidad y/o veracidad de las entidades, con el objetivo de superar la evaluación NER habitual basada en la medida F1 y desarrollar una evaluación más interpretable (Fu et al 2020).

Tarea E2. Evaluación extrínseca
Aunque todas estas tareas podrían evaluarse siguiendo una evaluación extrínseca, esta tarea de evaluación E2 se centrará en la evaluación del sistema Text Debunker propuesto en la Tarea D.3, que se basa en un proceso de generación de lenguaje natural (NLG) para generar automáticamente texto para desacreditar la información falsa y engañosa. En este sentido, la evaluación realizada estará en línea con las medidas de evaluación de evaluación NLG (Celikyilmaz et al 2021), involucrando tanto la evaluación manual como la automática, pero priorizando el primer tipo, ya que la evaluación humana también se considera la estrategia más confiable para evaluar un sistema NLG (Howcroft et al., 2020a).

Resultados de este módulo

Evaluación de modelos de lenguaje
Evaluación de entidades digitales
Evaluación del sistema Text Debunker