Módulo D – NL4DISMIS

Enfrentando la desinformación

En el módulo vamos a contextualizar dos problemas relacionados con la desinformación que son los principales objetivos de este proyecto: las fake news y el fenómeno de economía con la verdad.

Tarea D1. Detección de noticias falsas
Esta tarea abordará una de las formas de expresión de la desinformación que son las fake news en los medios digitales y en especial en las redes sociales, que parece ser su hábitat natural de transmisión.

La pandemia global de COVID-19 corroboró el grado de desinformación al que están expuestas las sociedades modernas. Esta situación ha sido un claro ejemplo de cómo las fake news se propagan muy rápido y pueden ser un grave problema de salud pública en este escenario. La información falsa se propaga más rápido que el propio virus y se publican un gran número de recomendaciones contradictorias y sin sentido, relacionadas con curas que se dicen milagrosas, pero que son ineficaces y carecen de base científica (Moscadelli et al., 2020). Por ejemplo, el titular "Niña de 13 años muere en Portugal por paro cardiorrespiratorio asociado al uso de mascarillas" resultó ser una noticia falsa poco después de su publicación, ver figura.

No hay duda de que tales afirmaciones pueden tener implicaciones peligrosas para la salud pública mundial, como las que podrían resultar de titulares engañosos como este: "Los datos oficiales del Reino Unido muestran un aumento del 5.400 % en el número de mujeres que han perdido a sus bebés después de contraer COVID vacunas" . Se demostró que este titular era falso pero altamente viralizado.

Dado que la tarea de detección de noticias falsas es muy compleja, se deben realizar diferentes subtareas para tratarla (Saquete et al., 2020). Aplicar un enfoque híbrido que combine diferentes aspectos para detectar fake news es fundamental. Detectar características del lenguaje que permitan distinguir contenido confiable del no confiable junto con herramientas que extraigan conocimiento externo sobre las entidades digitales contenidas en la información a tratar es uno de los desafíos que aborda este trabajo.

Tarea D.1.1. Definición de escenarios y dominios de aplicación
Esta tarea identificará los dominios estudiados a lo largo del proyecto, incluyendo especialmente los medios de comunicación y las redes sociales. Estos dominios podrían analizarse y evaluarse en diferentes escenarios y diferentes idiomas. Una vez analizados y definidos los escenarios y dominios, se utilizarán fuentes heterogéneas, tanto estructuradas como no estructuradas. Las fuentes de información estructurada se refieren a bases de datos institucionales y no institucionales existentes. En cuanto a las fuentes no estructuradas, se utilizarán todo tipo de contenidos digitales, por ejemplo contenido web, literatura médica, redes sociales, etc. Nuestro enfoque principal será el contenido textual.

Tarea D.1.2. Desarrollo de técnicas de detección de noticias falsas
El objetivo de esta tarea es estudiar y desarrollar o adaptar técnicas que contribuyan a la detección de noticias falsas, incluido el acceso a repositorios de noticias previamente desacreditadas, índices de credibilidad de fuentes, recursos de noticias anotados con información verdadera y falsa, técnicas de detección de contradicciones, características de el lenguaje engañoso, etc.

Además, esta tarea identificará diferentes herramientas y algoritmos que se pueden utilizar para desarrollar el software necesario para realizar la detección de noticias falsas. Teniendo en cuenta el estado del arte, analizaremos diferentes librerías de código abierto en lenguajes de programación específicos para el desarrollo y evaluación de modelos de aprendizaje automático aplicados a esta tarea.

Tarea D.1.3. Monitoreo de noticias falsas
Esta tarea se encargará de monitorear las noticias falsas mediante la creación de un repositorio que servirá al sistema de detección para aprender a detectar automáticamente las noticias falsas que puedan ser distribuidas por redes o medios. Para esta tarea se utilizarán diferentes plataformas de monitorización automática.

Tarea D.1.4. Sistema de detección de noticias falsas
Esta tarea se encarga de la implementación de una arquitectura híbrida que combina técnicas capaces de detectar lenguaje engañoso en el texto así como técnicas encargadas de contrastar las bases de conocimiento con las entidades digitales y las relaciones entre ellas para confirmar el valor de veracidad asignado a la textos. Esta arquitectura proporcionará toda la evidencia que corrobore o refute la información dada en un texto y será utilizada para generar desmentidos.

Tarea D.2. Descubrimiento de conocimientos para abordar textos “Económicos con la Verdad”
En el mundo interconectado y digitalizado de hoy, el inglés se usa como lengua franca en una amplia gama de contextos profesionales, científicos y académicos por personas para quienes el inglés es un idioma extranjero. Este problema lingüístico se agrava con textos que son, intencionalmente o no, económicos con la verdad, haciendo laboriosa la tarea de descubrir todo el conocimiento representado por una entidad digital. Para abordar este problema, se utilizan tecnologías de descubrimiento de conocimiento que desarrollan e implementan modelado de lenguaje natural y aprendizaje profundo para descubrir estas brechas de conocimiento. Podría decirse que este es un esfuerzo que vale la pena en la medida en que informará mejor a los responsables de la formulación de políticas y a las partes interesadas en varias áreas de la vida pública. El principal beneficio sería mitigar el riesgo de que las decisiones importantes de todas las partes interesadas de la sociedad se basen en datos que son económicos con la verdad, lo que puede conducir a resultados menos que óptimos, particularmente para aquellos afectados por la toma de decisiones.

Tarea D.2.1. Definición de escenarios y dominios de aplicación
Es importante analizar dominios con textos que traten, por ejemplo, campañas políticas, comunicaciones corporativas, macroeconomía y atención médica, para descubrir lagunas de conocimiento en una fuente de texto. Se utilizarán fuentes textuales heterogéneas, tanto estructuradas como no estructuradas, tal como se define en la Tarea D1.1, es decir, bases de datos institucionales y no institucionales existentes y todo tipo de contenido digital, respectivamente.

Tarea D.2.2. Desarrollo de técnicas que detecten textos que economizan con la verdad, teniendo omisiones clave
Para abordar este problema, se utilizarán tecnologías de Knowledge Discovery que desarrollan y despliegan modelado de lenguaje natural y aprendizaje profundo para descubrir evidencias de diferente naturaleza, ya sean omisiones y/o datos complementarios, y otros activos que son necesarios para hacer completamente- decisiones informadas. Las tecnologías desarrolladas en el Módulo C son relevantes para esta tarea.

Tarea D.3 Desacreditación automática de texto
Para el propósito de esta tarea, la desacreditación de texto se refiere no solo a exponer afirmaciones falsas y/o exageraciones al proporcionar evidencia contraria, sino también a mostrar que algo es "menos importante, menos bueno o menos verdadero de lo que parece" (Cambridge Dictionary, n.d.). Por lo tanto, "menos cierto" en este contexto se puede inferir que significa que el texto "ha sido económico con la verdad" debido a omisiones.

El objetivo de esta tarea es analizar y proponer Text Debunker, un sistema que utiliza técnicas NLG para explicar por qué la información es refutable, así como enriquecer las lagunas de conocimiento cuando se descubre que los textos son “económicos con la verdad”. La importancia de esta tarea surge de las capacidades inherentes de NLG descritas en la sección de antecedentes, su potencial para producir explicaciones y la investigación experimental ya existente en escenarios específicos, como los relacionados con la refutación de noticias falsas en las redes sociales (Vafeiadis et al. , 2020), o los beneficios de utilizar técnicas NLG para Inteligencia Artificial Explicable (XAI) (Faille et al., 2020) . Para lograr esta tarea, se considerarán trabajos de investigación previos que generan automáticamente explicaciones para explicar las decisiones tomadas por máquinas, así como algoritmos de aprendizaje profundo. Además, también exploraremos técnicas NLG neuronales mejoradas con conocimiento de última generación (Zhu et al, 2020) como una forma de adquirir conocimiento externo, junto con las técnicas recientes provenientes del campo de investigación de verificación de hechos, como las propuestas en (Vedula y Parthasarathy, 2021).

Resultados de este módulo:
Los resultados de este módulo distinguirán entre las aplicaciones para la detección de fake news y las de textos que economizan con la verdad:

Identificar escenarios y dominios y monitorear su alcance y escala
Análisis y generación o adaptación de técnicas
Arquitecturas respectivas
Text Debunker, un sistema para generar texto automáticamente que refuta noticias falsas y enriquece las lagunas de conocimiento cuando se descubre que los textos son "económicos con la verdad"