Las organizaciones y empresas destinan dinerales a conocer la opinión que la ciudadanía tiene sobre ellas. En las redes sociales, sin embargo, la gente da su opinión voluntaria y gratuitamente. El Grupo IXA de la Universidad del País Vasco (UPV/EHU) y la fundación Elhuyar, también del País Vasco, han desarrollado un sistema para extraer y clasificar las opiniones sobre temas concretos de la miríada de mensajes de Twitter, superando dificultades como la escritura no estándar o la mezcla de distintas lenguas.
Internet, y, especialmente, las redes sociales, son una generosa fuente de contenidos generados por los propios usuarios y usuarias, entre los que se encuentran las opiniones que da la ciudadanía sobre cualquier tipo de tema, cuandoquiera y dondequiera, de forma gratuita. Esa información “tiene una importancia vital para las organizaciones, empresas, agentes, etc., dado su permanente interés por conocer la opinión que la ciudadanía, las personas usuarias y la clientela tiene sobre ellas. Tradicionalmente han obtenido esa información mediante encuestas o cuestionarios, pero las muestras siempre han sido pequeñas”, comenta Iñaki San Vicente Roncal, autor principal del trabajo dirigido en el Grupo IXA de la UPV/EHU.
Actualmente, sin embargo, se generan ingentes cantidades de datos en las redes sociales, y, en general, en Internet. El reto ahora es extraer y clasificar correctamente la información de interés. El área de investigación conocida como Análisis de Sentimientos (sentiment analysis en inglés) busca métodos automáticos para determinar si un texto dado expresa alguna opinión o sentimiento positivo o negativo. “Nosotros comenzamos en el año 2011 a trabajar técnicas para el análisis de sentimiento en euskera”, recuerda el doctor San Vicente.
El sistema desarrollado es fruto de la estrecha colaboración que mantienen desde hace tiempo el grupo IXA de la Facultad de Informática de la UPV/EHU y la Unidad de Lengua y Tecnología de la Fundación Elhuyar. Han trabajado con los mensajes escritos en euskera, tanto los exclusivamente escritos en esa lengua como los que la incluían entre otras, principalmente de la red social Twitter. No les han faltado retos y dificultades que superar, ya que empezaron de cero.
El primer paso, el elemental, para crear el sistema de análisis de sentimiento en textos en euskera fue generar la polaridad léxica, es decir, crear listas con las palabras que de por sí tienen connotación positiva o negativa. Por ejemplo, las palabras “malo” y “malvado” siempre son negativas, mientras que “bueno” y “agradable” son positivas. ”En la creación de estas listas hay que tener en cuenta, no obstante, el tema o contexto en el que estás trabajando, ya que algunas palabras pueden tener una polaridad contraria dependiendo del contexto. Los verbos “ascender” y “descender”, por ejemplo, no tienen la misma connotación si estamos hablando de subir o bajar escaleras, de acciones bursátiles o de datos del paro”, explica San Vicente.
Además del léxico, tuvieron que tomar en consideración los fenómenos lingüísticos que se dan en todas las lenguas: “Las frases en negativo les dan un significado opuesto a las palabras (“esto no es nada bueno”), y también es importante detectar las declaraciones irónicas. Para resolver esos posibles problemas, desarrollamos un programa informático que extrajera la información de los textos, lematizara las palabras e hiciera los exámenes pertinentes”.
Por si no fuera poco la complejidad propia de cada lengua, el grupo de investigación tuvo que tener en cuenta, además, las particularidades que se dan en las redes sociales como Twitter. El lenguaje que se utiliza es singular, muy parecido al lenguaje hablado: “La gramática muchas veces suele ser no estándar, lo que dificulta el trabajo a las herramientas de análisis lingüístico, y es muy común mezclar distintas lenguas en una misma frase (“Kaixo. Acabo de hacer la azterketa de gizarte. Fatal atera zait!”); tenemos que tratar con fenómenos de ese tipo”, comenta San Vicente.
Pero no todo son dificultades; también encuentran pistas en las declaraciones de las redes sociales que facilitan su labor: “Para dar énfasis, se recurre a las letras en mayúscula, o se alargan las palabras (“muuuuy bueenoo”), o se utilizan un montón de signos de exclamación; las emociones se expresan mediante emoticonos… Todos esos elementos nos ofrecen información”, añade.
Toda la información recopilada la utilizaron para entrenar a los sistemas de aprendizaje automático, tal como relata San Vicente: “Generamos miles de ejemplos, debidamente clasificados, y alimentamos al sistema con ellos, además de definirle en qué características debía fijarse, para que, a partir de ahí, hiciera el análisis de las declaraciones por sí solo”.
La primera aplicación del sistema desarrollado fue Behagunea, mediante la cual hicieron el análisis de sentimiento de las declaraciones vertidas en Twitter relacionadas con la Capitalidad Europea de la Cultura de Donostia/San Sebastián de 2016. “Valoramos muy bien su funcionamiento; en momentos concretos hubo eventos polémicos, y el sistema los detectó todos”, opina San Vicente. Además, los datos recopilados también fueron utilizados para la evaluación de diferentes proyectos llevados a cabo en el marco de la capitalidad. Otro proyecto lo desarrollaron con el diario Berria, para hacer el seguimiento de las elecciones autonómicas de la Comunidad Autónoma del País Vasco de 2016, donde “tampoco faltaron las polémicas”.
El grupo de investigación de Elhuyar también ha trabajado con el Instituto Vasco de Criminología (IVAC-KREI) de la UPV/EHU, estudiando la percepción sobre las víctimas del terrorismo en redes sociales. “Para nuestro grupo es muy importante llevar a cabo ese tipo de proyectos, porque sirven para demostrar que se puede completar el trayecto desde la investigación básica realizada en la tesis a la aplicación industrial real”, declara San Vicente. “El sistema actual puede analizar textos en español, francés e inglés, además de en euskera, ya que no es suficiente analizar solo las declaraciones realizadas en euskera”.
A pesar de que la valoración sobre los resultados que da el sistema desarrollado es buena, todavía hay margen de mejora, y los investigadores siguen trabajando. “Hemos pasado de los modelos estadísticos tradicionales a trabajar con algoritmos neuronales, y estamos consiguiendo muy buenos resultados. El objetivo es mejorar la tasa de acierto o éxito en la clasificación de las declaraciones, que en estos momentos ronda el 75%”, concluye.
El informático Iñaki San Vicente Roncal, que trabaja en la Unidad de Lengua y Tecnología de la Fundación Elhuyar ha realizado la investigación en el Grupo IXA de la Facultad de Informática de la UPV/EHU, como parte de su tesis doctoral. La tesis ha tenido como título Multilingual sentiment analysis in social media, y ha tenido como directores los miembros del Grupo IXA German Rigau y Rodrigo Agerri. (Fuente: UPV/EHU)