Ciencia Internacional NewsFeed

Egresado de la UNAM desarrolla algoritmo que detecta el nivel de propaganda en noticias

Omar Páramo / Francisco Medina

El 5 de junio de 2017, Arabia Saudita, los Emiratos Árabes Unidos, Bahréin y Egipto anunciaron un bloqueo contra Qatar, el cual implicó la suspensión de toda relación diplomática y económica; un embargo por tierra, mar y aire, y un bombardeo propagandístico disfrazado de periodismo que, desde entonces, ha consistido en publicar sistemáticamente un alud de noticias tendenciosas encaminadas a minar la estabilidad de ese país.

Como investigador del Qatar Computing Research Institute (QCRI) y vecino de la ciudad de Doha desde hace ya un par de años, a Alberto Barrón Cedeño —licenciado y maestro por la UNAM, y doctor por la Universidad Politécnica de Valencia— le tocó vivir este capítulo muy de cerca y atestiguar cómo el internet y medios más tradicionales comenzaron a generar una apabullante cantidad de notas sesgadas sobre el tema. Para lidiar con tal número de textos él y sus compañeros del Departamento de Tecnologías del Lenguaje Árabe desarrollaron un programa capaz de detectar, en milisegundos, si un escrito puede considerarse informativo o tacharse de propaganda.

“Es imposible para alguien leer tanto y luego hacer una clasificación, por lo que nuestro algoritmo puede ser de gran ayuda para periodistas y analistas, es decir, para quienes necesitan cribar a fin de encontrar material relevante para llevar a cabo su trabajo; pero claro, esto también puede ser de utilidad para el público general”. 

Aunque como telón de fondo se aprecia un complejo entramado de desencuentros entre los países de la región, el detonante del conflicto se registró el 23 de mayo de 2017 y fue una supuesta declaración de apoyo del emir qatarí Sheikh Tamim bin Hamad al-Thani hacia Irán, Hamas y el Hezbolá, difundida desde la Agencia de Noticias de Qatar. “Después se sabría que hackearon sus servidores y se insertó un discurso falso que, pese a ser bajado con rapidez, alcanzó a ser replicado y provocó un bloqueo parecido al de EU a Cuba”.

Bajo el argumento de que estas posturas afectaban sus intereses, para levantar las políticas aislacionistas la coalición de naciones árabes dio al gobierno de Doha un plazo de 10 días para cumplir con 13 puntos, entre los que se encontraba el cierre del canal Al-Jazeera y de medios de comunicación como Rassd, Al-Araby, Al-Jadeed y Middle East Eye, pero ninguna de las exigencias fue aceptada. 

“Desde que inició este encontronazo las noticias fueron usadas como parte de un ataque metódico y los contenidos como vía para provocar incordios; por ello de repente en el país hubo mucho interés por las llamadas fake news, a tal grado que el QCRI nos pidió trabajar en un sistema que, al ser alimentado con una nota, estableciera si la información era veraz o no; eso resultó más difícil de lo esperado”.

La dificultad de determinar qué es falso

A decir del doctor Barrón Cedeño, el primer problema enfrentado tanto él como sus compañeros fue casi de omisión en el diccionario, pues en realidad no hay una definición para el término noticia falsa. “Lo que sí hay es una fuerte carga subjetiva y mucha ambigüedad; por ejemplo, si tienes afinidad por un partido político y se publica algo adverso sobre éste, es probable que consideres estar ante un texto poco veraz, y si lees un escrito favorecedor lo tomarás por cierto”.

A fin de salvar este escollo los computólogos decidieron modificar el enfoque, tomar un atajo y analizar algo en realidad medible: la propaganda. “Es complicado determinar qué es la verdad; es más fácil estipular si alguien te quiere engañar. A nivel periodístico si un individuo quiere influir en nuestra opinión y voluntad empleará mecanismos propagandísticos, como tender a la exageración, ser negativo hacia un tema o personaje que no lo es tanto o se deshará en halagos refiriéndose a un asunto o a un sujeto no muy positivo”.

Las instalaciones del QCRI se ubican en la capital Doha, dentro del HBKU Research Complex de Education City (“sitio parecido a Ciudad Universitaria, aunque no tan grande”), y ahí, desde inicios de 2018, el investigador y sus colaboradores han desarrollado un algoritmo capaz de detectar textos con estas características, el cual tiene una efectividad al predecir de entre el 90 y el 93 por ciento. ¿Y cómo se logra esto? Fácil —responde Alberto Barrón—, analizamos el estilo.

En lingüística forense existe un campo llamado atribución de autoría, que consiste en diseccionar un documento y determinar quién lo escribió. Uno de los ejemplos más conocido en el rubro son los análisis realizados a piezas isabelinas anónimas que se  sospechaba eran de ciertos literatos, pero tras calcular estadísticas, establecer vocabularios y destacar frases y estructuras, se descubrió que eran de Shakespeare o que, al menos, tenían sus huellas digitales.

“Nosotros usamos técnicas parecidas para caracterizar las noticias y establecer si su estilo corresponde a ése con el que típicamente se redacta la propaganda. Por ejemplo, evaluamos la complejidad; mientras más propagandístico es un escrito las oraciones son más cortas, las frases se simplifican y los conceptos se hacen digeribles, es decir, parecen más dirigidos a un niño que a un universitario. Y pasa algo parecido con los adjetivos, si son muchos y muy positivos o negativos sabemos que existe la voluntad de inducir opinión”.

Sobre la efectividad de dichas estrategias para influir en las multitudes Barrón Cedeño señala que es mucha y que, con frecuencia, suelen pasar inadvertidas debido a su sutileza al operar, así como a la cantidad de actores involucrados, los cuales entran y salen de escena con una sincronía sorprendente. 

“Un compañero del QCRI hizo un análisis de Twitter los días previos al bloqueo y detectó gran cantidad de cuentas de Arabia Saudita y Emiratos Árabes publicando mensajes contra Qatar a fin de generar trending topics y justificar lo que vendría después. En este escenario los medios de comunicación juegan un papel importante porque con la información que sacan y su manera de presentarla van preparando el terreno para que se den determinadas acciones. Por ello nuestro objetivo a largo plazo es predecir el desarrollo de ciertos eventos a partir de la evolución de las notas y su cobertura. Aún nos falta mucho para eso, pero creemos que éste es un buen camino para lograrlo”.

Un algoritmo que aprende

De visita en el Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS) de la UNAM para hablar de este desarrollo, Barrón Cedeño explicó que ya está operando y que funciona desde una página web donde a diario recupera miles de artículos, los cuales son organizados por tema. “En un grupo los que hablan de Trump, en otros lo de Europa, más allá los de Macron y así. Una vez hecho esto el programa calcula el índice de propaganda o, en otras palabras, asigna un valor del cero al uno para señalar si el texto es nada o muy propagandístico, todo ello en milisegundos”. 

Los objetivos planteados al crear esta herramienta eran dos: darle recursos a un periodista especializado para analizar, de manera automática, un conjunto de notas según su carga ideológica, y hacerle evidente al lector común cuando un medio busca manipularlo en vez de informar. Sin embargo, al ir avanzando el proyecto, los investigadores han comenzado a verle otros potenciales.

Para llegar a este punto, nuestro algoritmo antes aprendió a discernir, es decir, lo entrenamos con una muestra de cerca de 10 mil ejemplos hasta que pudo él, por sí mismo, hacer estas clasificaciones. Tal flexibilidad abre nuevos horizontes: por el momento el sistema funciona sólo en inglés y en breve lo hará en árabe, pero con las sesiones de aprendizaje adecuadas también podría operar en español, francés o cualquier otra lengua. Lo crucial del trabajo ya se hizo ya que los marcadores estilísticos de la propaganda parecen ser siempre los mismos, sin importar el idioma”.

Esto —añade Barrón Cedeño— permitiría en un futuro tomarle el pulso al ejercicio periodístico a nivel mundial, pues no es lo mismo leer lo publicado en Medio Oriente, Estados Unidos, México o Cuba, y esto todos lo sabemos. “Las líneas editoriales y los intereses de cada región son muy distintos y en las condiciones actuales resulta muy difícil evaluar esto mediante parámetros objetivos. Sería muy interesante aplicar este sistema y ver, ahora sí, los resultados”.

Deja tu comentario

Comentarios

A %d blogueros les gusta esto: