Revisión dirigida de los Modelos Lingüísticos existentes
Coordinador: Manuel Palomar Sanz
El objetivo de este módulo es proporcionar una revisión específica de los principales proyectos nacionales e internacionales desarrollados para desarrollar modelos de lenguaje genérico. Se analizarán los siguientes proyectos de código abierto y disponibles públicamente para obtener los modelos de lenguaje: Proyectos LEIA, MarIA, Nós, AiNA y C4. Adicionalmente, realizaremos un análisis y experimentación con modelos de transformadores. Finalmente, los modelos obtenidos serán analizados y depurados para detectar y eliminar los posibles sesgos que puedan contener. Este módulo está organizado en cuatro tareas que se detallan a continuación.
Tarea A.1. Análisis de los principales proyectos de construcción de modelos lingüísticos
El objetivo de esta tarea es, en primer lugar, analizar los mencionados proyectos ya desarrollados o en desarrollo que pretenden construir modelos lingüísticos genéricos para el español, el catalán, el gallego y el inglés, y en segundo lugar, encontrar sinergias entre ellos.
Tarea A.1.1. Análisis y experimentación con los resultados del Proyecto LEIA
LEIA (Lengua Española e Inteligencia Artificial) es un proyecto al alcance de la comunidad investigadora y empresarial impulsado por la Real Academia de la Lengua Española y el Plan Nacional de Idiomas para la creación de recursos, modelos lingüísticos y colecciones de datos El objetivo de LEIA es enseñar a las máquinas a hablar español correctamente. Las líneas principales del proyecto LEIA son, por un lado, asegurar el correcto uso del idioma español en las máquinas y, por otro lado, aprovechar la inteligencia artificial para crear herramientas que promuevan el uso correcto del español en humanos. Además, como uno de los principales medios para garantizar el cumplimiento de estos dos objetivos, se creará un certificado para comprobar que las empresas e instituciones se comprometen a esforzarse por utilizar correctamente el español en sus plataformas y tecnologías. Más información disponible en: https://www.rae.es/leia-lengua-espanola-e-inteligencia-artificial.
El objetivo de esta tarea es analizar los recursos generados por LEIA y, en particular, los modelos de lenguaje obtenidos.
Tarea A.1.2 Análisis y experimentación de los resultados del Proyecto MarIA
MarIA es un conjunto de modelos de lenguaje, o en otras palabras, redes neuronales profundas entrenadas para adquirir, a nivel experto, una comprensión del lenguaje, su léxico y sus mecanismos para expresar significado y escribir. Tiene como objetivo mejorar el uso del idioma español en otros sistemas de inteligencia artificial.
Esta herramienta de IA, desarrollada por Barcelona Super Computing Center (BSC), es capaz de comprender el idioma español. Para esta iniciativa se utilizaron archivos de la Biblioteca Nacional de España. Se puede utilizar en múltiples aplicaciones como predictores y correctores de idiomas, chatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones de análisis de sentimiento o motores de traducción automática y subtitulado, entre otros. MarIA está disponible en código abierto para que cualquier desarrollador, empresa o entidad pueda utilizarlo sin coste alguno.
El objetivo de esta tarea es analizar los recursos generados por MarIA y, en particular, los modelos de lenguaje obtenidos.
Tarea A.1.3 Análisis y experimentación de los resultados del Proyecto Nós
NóS consiste en la construcción de recursos lingüísticos digitales en gallego de calidad, gratuitos y de código abierto, que pueden ser utilizados por empresas, instituciones y particulares. Garantiza que los ciudadanos de Galicia puedan participar en el mundo digital sin renunciar a su lengua.
Los recursos generados son: (i) un sintetizador de voz, que permite a terceros incluir en sus productos voces artificiales en gallego de alta calidad y elegir género, edad, etc.; (ii) un reconocedor de voz que permite la interacción hombre-máquina o la sustitución automática; (iii) un generador de lenguaje natural, que convierte datos estructurados en oraciones en gallego, tanto textuales como orales; (iv) un sistema de diálogo genérico, es decir, un agente conversacional textual general en gallego, que puede ser adaptado a dominios específicos por terceros; (v) un sistema de respuesta de preguntas, tanto a través de texto como de voz; y (vi) un traductor automático a otros idiomas y viceversa, con entrada de texto o de voz y un sistema automático de corrección lingüística, tanto ortográfica como léxica y gramatical.
El objetivo de esta tarea es analizar los recursos generados por Nós y, en particular, los modelos de lenguaje obtenidos.
Tarea A.1.4 Análisis y experimentación de los resultados del Proyecto AiNA
El proyecto AiNA generará los recursos digitales y lingüísticos necesarios para facilitar el desarrollo de aplicaciones basadas en Inteligencia Artificial y Tecnologías del Lenguaje como asistentes de voz, herramientas de traducción automática y chatbots en catalán. AiNA tiene como objetivo desarrollar recursos de inteligencia artificial y tecnologías del lenguaje que permitan dar un salto cualitativo en la digitalización de la Administración Pública, así como facilitar la digitalización y la internacionalización de las empresas catalanas y su acceso al Mercado Único Digital europeo, asegurando la supervivencia digital del catalán. El objetivo final es que las personas puedan participar en el mundo digital en catalán en la misma medida que los hablantes de una lengua global como el inglés o el castellano, evitando así la extinción digital de la lengua.
El primer recurso que se generará es el corpus en catalán para el entrenamiento de algoritmos de IA. El siguiente paso será generar modelos de lenguaje, modelos de voz y modelos de traducción mediante redes neuronales multicapa para que las empresas que crean aplicaciones basadas en IA como asistentes de voz, herramientas de traducción automática o chatbots puedan hacerlo fácilmente en catalán.
Más información disponible en: http://smartcatalonia.gencat.cat/ca/projectes/tecnologies/detalls/article/AINA.
El objetivo de esta tarea es analizar los recursos generados por AiNA y, en particular, los modelos de lenguaje obtenidos.
Tarea A.1.5 Análisis y experimentación con los resultados del Proyecto C4 Dataset
El conjunto de datos C4 es una versión colosal y limpia del corpus de rastreo web de Common Crawl. Se basa en el conjunto de datos Common Crawl. C4 está destinado principalmente a preentrenar modelos de lenguaje y representaciones de palabras. El conjunto de datos está en inglés. Es una colección de aproximadamente 750 GB de texto en inglés procedente del raspado web público Common Crawl (Raffel et al, 2020).
Más información disponible en: https://huggingface.co/datasets/allenai/c4.
El objetivo de esta tarea es analizar los recursos generados por C4 y, en particular, los modelos de lenguaje obtenidos.
Tarea A.2. Obtención de modelos lingüísticos genéricos para castellano, gallego, catalán e inglés
En base a los proyectos mencionados en las tareas anteriores, y sus propósitos, en esta tarea pretendemos tener los modelos de lenguaje genéricos para usar como base para nuestra investigación.
Tarea A.3. Obtención de un modelo de lenguaje genérico multilingüe para los 4 idiomas
Partiendo de los modelos de calidad genéricos, ampliados y adaptados a nuestras tecnologías, se pretende investigar y experimentar con el fin de obtener un modelo lingüístico multilingüe. Esto representa una iniciativa innovadora y ambiciosa que requerirá los recursos adquiridos.
Una vez obtenidos los modelos de lenguaje genérico, el objetivo de esta tarea es establecer las relaciones entre ellos a través del modelo de lenguaje multilingüe obtenido.
Tarea A.4.Análisis y experimentación con modelos transformadores
Un transformador (transformer) es un modelo de aprendizaje profundo que adopta el mecanismo de atención, ponderando diferencialmente el significado de cada parte de los datos de entrada. Supera a las redes neuronales anteriores aplicadas al procesamiento del lenguaje natural, como las redes neuronales recurrentes (RNN) y la memoria a corto-largo plazo (LSTM) porque no necesariamente procesa los datos en orden, ya que el mecanismo de atención brinda contexto para cualquier posición en la secuencia de entrada identificando el contexto que confiere significado a cada palabra de la oración (Wolf et al. 2020).
Los transformadores adoptan una arquitectura de codificador-decodificador, donde el codificador consta de capas de codificación que procesan iterativamente la entrada una capa tras otra, mientras que el decodificador consta de capas de decodificación que hacen lo mismo con la salida del codificador. La principal ventaja de los transformadores es la fase de preentrenamiento no supervisada en grandes conjuntos de datos, que posteriormente se supervisan y ajustan en conjuntos de datos de entrenamiento etiquetados más pequeños. Esto permite que el mismo modelo de lenguaje generado en el preentrenamiento sea utilizado en diferentes tareas, reduciendo el tiempo de cómputo y los costos de producción, generando una menor huella de carbono. De esta forma, los investigadores pueden compartir modelos entrenados en lugar de volver a entrenarse siempre. Además, los modelos previamente entrenados se pueden encontrar en más de 100 idiomas, además estar disponibles en plataformas de aprendizaje profundo estándar como HuggingFace, TensorFlow y PyTorch. Por ejemplo, se pueden encontrar modelos para las siguientes tareas: análisis de sentimientos, generación de texto, reconocimiento de entidades (NER), respuesta a preguntas, relleno de texto enmascarado, resumen, traducción o característica extracción.
El objetivo de esta tarea es proporcionar una arquitectura de propósito general útil para todos los módulos de este proyecto. Esta arquitectura se basará en la tecnología de transformadores, que se ha convertido en la más exitosa para tareas de generación de lenguaje natural (NLG).
Tarea A.5. Adapte y cree modelos de lenguaje sin sesgos
Una vez obtenidos los diferentes modelos lingüísticos mediante las tareas anteriores, se analizarán dichos modelos con el fin de detectar los posibles sesgos que puedan incluir. Analizar el sesgo requiere identificar qué se considera un comportamiento dañino, cómo y para quién (Savoldi et al. 2021). Para ello, en este proyecto analizamos técnicas relevantes utilizadas para estudiar el sesgo en PLN (Quian, 2019): eliminación de sesgo por incrustación de palabras (Swinger et al. 2019) y eliminación de sesgo de datos por preprocesamiento (Kaiji et al. 2018). Una vez identificados y detectados los sesgos que puedan incluir los modelos iniciales, se realizarán las correcciones correspondientes a cada uno de estos modelos para evitar la propagación de sesgos en procesos posteriores.
Resultados de este módulo
- Modelo de lenguaje genérico libre de sesgos en español
- Modelo de lengua genérica libre de sesgo gallego
- Modelo de lengua genérica libre de sesgo catalán
- Modelo de lenguaje genérico libre de sesgo en inglés
- Modelo de lenguaje genérico multilingüe sin prejuicios
- Modelo de lenguaje basado en transformadores