Investigadores informáticos de la Universidad Nacional de Educación a Distancia (UNED) han desarrollado un método estadístico para detectar el contenido basura (spam) en Twitter. Para demostrar su eficacia han analizado 20 millones de mensajes.
Juan Martínez-Romo, investigador del departamento de Lenguajes y Sistemas Informáticos de la UNED, junto a otros investigadores de la universidad, ha diseñado un método para detectar el contenido basura que se cuela en los trending topics, o temas más populares de Twitter. Para ello, han analizado 20 millones de tuits, 34.000 trending topics y seis millones de direcciones webs, publicadas en estos mensajes.
La herramienta clasificó correctamente el 93,7% de los mensajes maliciosos y el 89,3% de los mensajes válidos. “Solo el 6,3% de tuits válidos fueron clasificados erróneamente como basura”, destaca Martínez-Romo en la información de divulgaUNED.
La investigación, que se publica en la revista Expert Systems with Applications, utiliza modelos del lenguaje para detectar el spam y, a diferencia de otros métodos, no analiza perfiles de usuarios sino tuits.
“La creación de nuevos usuarios es muy sencilla, lo que provoca que la eliminación de los perfiles de spammers sea una tarea infructuosa, porque inmediatamente o en paralelo, la misma persona dispone de otras cuentas de usuario desde las que enviar contenido basura”, comenta Martínez-Romo.
Como algunos mensajes maliciosos tienen apariencia de válidos, el método analiza también el contenido de las páginas webs que se incluyen en el mensaje. Por ejemplo, si un tema popular es David Bowie, y el enlace de la página web de un tuit lleva a un portal de productos farmacéuticos, ese mensaje sería clasificado como spam.
El método puede ser implementado en tiempo real y de forma sencilla en los servidores de Twitter, algo a lo que están abiertos los investigadores, en el caso de que la compañía norteamericana quisiera incluir su algoritmo.




