Un detector de odio en tuits para frenar el discurso ofensivo

Autoría: Carolina Moya / Fundación Descubre

Un equipo de investigación de la Universidad de Jaén y de la Universidad de Murcia ha diseñado un sistema para textos en español que clasifica los mensajes dirigidos a dañar por motivos de raza, género, orientación sexual, nacionalidad o religión. El sistema combina el análisis de las características lingüísticas con redes neuronales basadas en mecanismos de atención, mejorando la precisión de los sistemas actuales. Con esta herramienta de procesamiento del lenguaje natural, se podrán agilizar los mecanismos de alerta sobre esas publicaciones y detenerlas antes de su difusión masiva.

“No eres nadie, qué asco das”. Éste es uno de los tuits leídos en el Odiómetro, un medidor del odio en Twitter, que cuantifica cuántos tuits ofensivos por minuto se emiten en la red social en castellano, buscando coincidencias con insultos, descalificaciones y palabras malsonantes. Así, se emiten hasta unos 60 por minuto.

Dos personas usan la app Twitter en sus móviles.

Una ingente cascada de publicaciones diarias que hace imposible revisar cada comentario a mano. Por ello, el equipo de investigación SINAI de la Universidad de Jaén y el equipo de investigación TECNOMOD de la Universidad de Murcia proponen un modelo de identificación automática de discursos de odio destinado a frenar su dispersión.

El modelo combina el análisis de características lingüísticas con redes neuronales basadas en mecanismos de atención, llamadas Transformers. Éstas permiten saber cuáles son los significados que más influyen sobre una palabra en concreto, útil en casos de polisemia o anáfora. De esta forma, alcanza unos resultados cercanos al 90% de precisión. El desafío de esta herramienta de procesamiento del lenguaje natural es agilizar la detección del lenguaje ofensivo para evitar su propagación masiva.

Estudios anteriores apuntan que la presencia de estos mensajes de odio, dirigidos a dañar por motivos de raza, género, orientación sexual, nacionalidad o religión en las plataformas de redes sociales, se correlaciona con los delitos de odio en la vida real. “No es factible depender de la supervisión manual para detener estas palabras ofensivas. Por ello, queremos contribuir a la detección del discurso de odio en español con un modelo automático y preciso que sea más rápido”, incide la investigadora del Grupo Sistemas Inteligentes de Acceso a la Información (SINAI) de la Universidad de Jaén Salud María Jiménez Zafra, una de las autoras del estudio publicado en la revista Complex & Intelligent Systems.

Reconocer el odio de manera automática

Para que el ordenador ‘entienda’ textos escritos en lenguaje natural se requiere una codificación adecuada. Para ello, las palabras se traducen a modelos estadísticos que capturan diversas dimensiones del lenguaje. De esta forma, los investigadores incluyen 365 rasgos de interés organizados en distintas categorías como fonéticas, morfosintácticas, semánticas, pragmáticas, estilométricas o jerga de los medios sociales, extraídos de la herramienta UMUTextStats desarrollada por el grupo TECNOMOD de la Universidad de Murcia.

Así, se contabilizan verbos, pronombres, adverbios, frases hechas o marcadores del discurso. “En el caso específico del odio, se atiende a cuestiones relacionadas como el género, los errores ortográficos, términos inclusivos, la presencia de términos relacionados con animales (zorra, perra…) o palabras malsonantes”, comenta el catedrático de la Universidad de Murcia Rafael Valencia García.

Junto a estos métodos que atienden a la propia palabra, se entrenan redes neuronales, es decir, algoritmos que funcionan como lo hace el cerebro humano, que cuenta con áreas especializadas en ciertas tareas, y que van aprendiendo con la incorporación de nuevos datos. Sin embargo, los modelos resultantes suelen ser de caja negra, donde es difícil entender qué mecanismos han llevado al modelo a ver si un texto es un potencial discurso de odio o no. La principal contribución de las características lingüísticas es que mejora la interpretabilidad de los modelos, permitiendo a los expertos poder entenderlos mejor, mejorando su generalidad e identificando sesgos ocultos en ellos”, explica el investigador José Antonio García Díaz del grupo TECNOMOD de la Universidad de Murcia.

El resultado de esta combinación es un sistema para el idioma español más preciso, generalizable e interpretable. “Nuestra propuesta, basada en el uso de características lingüísticas y modelos del lenguaje, supera la precisión de estudios anteriores y alcanza el 90,4 % en algunos de los experimentos”, remarca el investigador del grupo SINAI de la Universidad de Jaén Miguel Ángel García Cumbreras.

Detección temprana

El equipo de investigación apunta que este modelo se plasmará en aplicaciones que indiquen de forma rápida si un mensaje contiene elementos de odio o no. Así, se agilizará el mecanismo de avisos en las plataformas de medios sociales para alertar sobre la presencia de elementos odiosos en los contenidos o el seguimiento de usuarios que viertan continuamente mensajes de odio.

La detección precoz supone una forma de evitar la rápida propagación: un cortafuegos a la diseminación y, por ende, a la permanencia del odio. Según el informe Addressing hate speech on social media: Contemporary challenges publicado en 2021 por la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO), la prevalencia del discurso de odio en las plataformas de redes sociales se determina mediante una muestra de contenido que los usuarios visualizan. Esto supone que solamente captura una estimación del discurso ofensivo que permanece en la plataforma después de que la empresa haya detectado y eliminado elementos de manera proactiva. Sólo una muestra. De ahí, que agilizar la detección del lenguaje ofensivo sea el primer paso para frenar su propagación masiva.

Más información en #CienciaDirecta: Desarrollan un método automático para detectar el discurso de odio en redes sociales

Últimas publicaciones

Ver todas

Cookie	Duración	Descripción
__cfduid	1 mes	La cookie es utilizada por servicios cdn como CloudFlare para identificar clientes individuales detrás de una dirección IP compartida y aplicar configuraciones de seguridad por cliente. No corresponde a ningún ID de usuario en la aplicación web y no almacena ninguna información de identificación personal.
CONSENT	16 años 7 meses	La cookie se establece mediante el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies.
cookielawinfo-checbox-analytics	11 meses	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Análisis".
cookielawinfo-checkbox-advertisement	1 año	La cookie se establece mediante el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Publicidad".
cookielawinfo-checkbox-necessary	11 meses	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesarias".
PHPSESSID	sessión	Esta cookie es nativa de las aplicaciones PHP. La cookie se utiliza para almacenar e identificar la identificación de sesión única de un usuario con el fin de administrar la sesión del usuario en el sitio web. La cookie es una cookie de sesión y se elimina cuando se cierran todas las ventanas del navegador.
viewed_cookie_policy	11 meses	La cookie está configurada por el complemento de consentimiento de cookies de GDPR y se utiliza para almacenar si el usuario ha dado su consentimiento o no para el uso de cookies. No almacena ningún dato personal.

Cookie	Duración	Descripción
__stid	1 año	ShareThis establece la cookie. La cookie se utiliza para el análisis del sitio para determinar las páginas visitadas, la cantidad de tiempo dedicado, etc.
__stidv	1 año	ShareThis utiliza esta cookie. Esta cookie se utiliza para compartir el contenido del sitio web en las redes sociales.
_ga	2 años	Esta cookie es instalada por Google Analytics. La cookie se utiliza para calcular los datos de visitantes, sesiones y campañas y realizar un seguimiento del uso del sitio para el informe de análisis del sitio. Las cookies almacenan información de forma anónima y asignan un número generado aleatoriamente para identificar visitantes únicos.
_gat	1 minuto	Google Universal Analytics instala estas cookies para acelerar la tasa de solicitud y limitar la recopilación de datos en sitios de alto tráfico.
_gid	1 día	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información sobre cómo los visitantes usan un sitio web y ayuda a crear un informe analítico de cómo está funcionando el sitio web. Los datos recopilados, incluido el número de visitantes, la fuente de donde provienen y las páginas visitadas de forma anónima.
fpestid	1 año	ShareThis utiliza esta cookie. Esta cookie se utiliza para compartir el contenido del sitio web en las redes sociales.
IDE	1 año 24 días	Utilizado por Google DoubleClick y almacena información sobre cómo el usuario utiliza el sitio web y cualquier otro anuncio antes de visitar el sitio web. Se utiliza para presentar a los usuarios anuncios que son relevantes para ellos de acuerdo con el perfil del usuario.
ms-uid	1 año	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información sobre cómo los visitantes usan un sitio web y ayuda a crear un informe analítico de cómo está funcionando el sitio web. Los datos recopilados, incluido el número de visitantes, la fuente de donde provienen y las páginas visitadas de forma anónima.
st_samesite	sessión	ShareThis utiliza esta cookie. Esta cookie se utiliza para compartir el contenido del sitio web en las redes sociales.
test_cookie	15 minutos	Esta cookie la establece doubleclick.net. El propósito de la cookie es determinar si el navegador del usuario admite cookies.
VISITOR_INFO1_LIVE	5 meses 27 días	Youtube establece esta cookie. Se utiliza para rastrear la información de los videos de YouTube incrustados en un sitio web.
YSC	sessión	Estas cookies son establecidas por Youtube y se utilizan para rastrear las vistas de videos incrustados.

Un detector de odio en tuits para frenar el discurso ofensivo

Últimas publicaciones

Crean un sistema que reduce la temperatura en naves de ganado vacuno y se consigue mayor productividad de leche

Un proyecto de ciencia ciudadana diseña un sistema para combatir la desinformación

La Fundación

Equipo

Webs temáticas

Exploria Ciencia

Participa

Agenda

Un detector de odio en tuits para frenar el discurso ofensivo

Últimas publicaciones

Crean un sistema que reduce la temperatura en naves de ganado vacuno y se consigue mayor productividad de leche

Un proyecto de ciencia ciudadana diseña un sistema para combatir la desinformación

Suscríbete a nuestra newsletter

La Fundación

Equipo

Webs temáticas

Exploria Ciencia

Participa

Agenda