Conferencia de Directores y Decanos de Ingeniería Informática

Algoritmos y técnicas de IA para la detección y clasificación del odio en las redes sociales y los medios

Las redes sociales nacieron como un espacio de opinión donde los usuarios pueden expresarse libremente incluso de manera anónima o con diferentes identidades digitales. Si bien la libertad de expresión es un derecho humano, inducir, provocar y difundir el odio hacia otra persona o personas o colectivos es un abuso de esa libertad.

En España los delitos de odio crecieron un 21% en 2023, además sabemos que, de media, en un día se publican más de 1.000 millones de mensajes entre las seis principales redes sociales (Facebook, X, YouTube, Instagram, TikTok y LinkedIn). En este contexto, la detección automática del discurso de odio resulta crucial como herramienta para monitorizar y prevenir este tipo de mensajes. Sin embargo, nos encontramos ante el problema de que no existe una definición única para el discurso de odio, lo que complica en gran medida la labor de crear algoritmos que detecten el odio automáticamente y con precisión en un texto.

Un mensaje escrito en una red social o un medio digital podrá ser considerado discurso de odio en función de varios elementos que van más allá de las simples palabras que lo componen, como pueden ser las características del propio emisor, su intención, el contexto en el que se realiza, la cultura del país, etc. En otras ocasiones, el mensaje de odio se confunde con el lenguaje ofensivo, pero es importante remarcar la diferencia entre ambos conceptos.

El lenguaje ofensivo se refiere a palabras o expresiones que pueden ser groseras o irrespetuosas, puede incluir insultos, pero no necesariamente buscan incitar a la violencia o la discriminación. El mensaje de odio es una forma más grave de expresión que busca discriminar o incitar a la violencia hacia una persona o un colectivo. Ambos mensajes son perjudiciales, y deben ser detectados, pero el mensaje de odio tiene mayores implicaciones legales y sociales.

Uso de modelos de inteligencia artificial para detectar el odio

El camino hacia una detección precisa del discurso de odio está lleno de desafíos. Los mensajes pueden ser escurridizos y subjetivos, disfrazándose de múltiples formas y desafiando definiciones rígidas. Un mismo mensaje puede resultar inofensivo en un contexto y altamente ofensivo en otro, dependiendo de la intención del emisor, la identidad del receptor y el trasfondo cultural. La línea entre el lenguaje ofensivo y el discurso de odio es tenue pero crucial: mientras el primero puede ser simplemente grosero o insultante, el segundo busca activamente dañar y discriminar.

Para combatir esta amenaza, la inteligencia artificial se ha convertido en un aliado indispensable. El procesamiento del lenguaje natural permite analizar el lenguaje en todas sus dimensiones, desde el sentimiento que evoca hasta las entidades que menciona. A través del análisis de sentimiento es posible identificar emociones negativas que suelen acompañar al discurso de odio, mientras que la clasificación de temas permite detectar patrones dentro de comunidades y grupos donde este tipo de mensajes se propaga.

Durante años, los algoritmos clásicos de aprendizaje automático, como Naive Bayes y Support Vector Machines (SVM), han sido fundamentales en esta tarea. Su eficiencia y rapidez permiten clasificar textos con un nivel aceptable de precisión, ofreciendo además interpretabilidad y facilidad de implementación. Otra de sus ventajas es que requieren menos datos en comparación con modelos más avanzados, lo que los hace útiles en entornos con recursos computacionales limitados.

Sin embargo, estos modelos presentan limitaciones importantes. Tienen dificultades para comprender el lenguaje complejo, el sarcasmo y el contexto en el que se expresan ciertos mensajes. Además, dependen de métodos de representación de texto como Bag of Words o TF-IDF, que no capturan el significado real del lenguaje. A medida que el discurso de odio se ha vuelto más sofisticado y camuflado, ha sido necesario recurrir a modelos más avanzados, capaces de analizar el lenguaje de manera profunda y contextual.

En este sentido, los modelos de lenguaje transformadores, como BERT, GPT y RoBERTa, han marcado un antes y un después. Estos modelos han sido preentrenados con enormes volúmenes de texto, lo que les permite capturar el significado y el contexto de las palabras con una profundidad sin precedentes. Su capacidad para comprender las sutilezas del lenguaje humano los convierte en herramientas poderosas para distinguir entre un simple insulto y un ataque discriminatorio.

A diferencia de los enfoques clásicos, los modelos transformadores pueden identificar patrones más complejos y adaptativos, lo que los hace altamente efectivos en la detección de discursos de odio que antes pasaban desapercibidos.

A pesar de su gran potencial, la inteligencia artificial todavía enfrenta desafíos significativos en este campo. Uno de los principales problemas es la herencia de sesgos en los datos de entrenamiento, lo que puede llevar a decisiones injustas y a la perpetuación de discriminación. Además, la variabilidad del lenguaje, influenciada por factores culturales y sociales, añade otra capa de complejidad.

El discurso de odio es dinámico y evoluciona constantemente, lo que exige una vigilancia continua y la actualización periódica de los modelos para evitar que se vuelvan obsoletos. También es crucial encontrar un equilibrio entre la detección efectiva del odio y la preservación de la libertad de expresión, evitando la censura injustificada o el silenciamiento de voces legítimas.

Fuente: UNIR