
Image by AppsHunter.io, from Unsplash
Las preocupaciones sobre la privacidad en Discord aumentan después de que 2 mil millones de mensajes se vuelven públicos
Investigadores brasileños recopilaron 2 mil millones de mensajes públicos de Discord para una investigación académica, lo que generó preocupaciones de privacidad a pesar de las afirmaciones de recolección ética y anonimización.
¿Apurado? Aquí están los datos rápidos:
- Los investigadores recopilaron 2 mil millones de mensajes de Discord de 3,167 servidores públicos.
- Los datos abarcan de 2015 a 2024 e incluyen a 4.7 millones de usuarios.
- La base de datos ahora es pública, con un peso de más de 118GB.
Un equipo de investigación brasileño publicó un enorme conjunto de datos de más de 2 mil millones de mensajes de Discord, lo que ha suscitado grandes preocupaciones sobre la privacidad a pesar de sus afirmaciones de conducta ética, tal como lo detectó primero 404 Media.
El equipo de investigación compuesto por 15 miembros de la Universidad Federal de Minas Gerais obtuvo mensajes de 3,167 servidores públicos de Discord, lo que representa el 10% de todas las comunidades de Discord descubribles a través de la API pública de la plataforma.
Los mensajes abarcan casi una década, desde 2015 hasta 2024, y se recopilaron como parte de un estudio destinado a ayudar con la salud mental, el discurso político y la investigación de chatbots de IA.
“A lo largo de cada paso de nuestro proceso de recolección de datos, priorizamos la adherencia a los estándares éticos”, escribieron las investigadoras aquí. “Todos los datos fueron obtenidos de grupos que son explícitamente considerados públicos según los términos de uso de Discord […] Los datos fueron anonimizados.”
Aseguran que eliminaron los nombres de usuario, cambiaron las ID de usuario y tomaron otras medidas para garantizar la privacidad. La base de datos está disponible en línea como un conjunto de archivos JSON. Incluso una muestra comprimida es de 6.2GB, mientras que el archivo completo pesa 118GB.
Sin embargo, a pesar de estos esfuerzos, muchos usuarios de Discord están alarmados. 404 Media sostiene que los usuarios consideran sus conversaciones de Discord como privadas, a pesar de que los servidores existen en un dominio público, porque la plataforma opera de manera diferente a Twitter o Reddit.
El método de recopilación de datos de investigación genera preocupaciones porque muchos usuarios, incluyendo adolescentes, desconocen que sus mensajes podrían ser incluidos en conjuntos de datos de investigación.
El raspado también puede violar las propias reglas de Discord. Su Política de Desarrolladores establece claramente: “No extraigas ni rasques ningún dato… a través de los servicios de Discord”, según lo señalado por 404 Media.
Este incidente sigue a controversias anteriores de raspado, incluyendo a Spy.pet, que recopiló datos de servidores privados, según lo indicado por 404 Media. Pero a diferencia de eso, los investigadores insisten en que siguieron todas las reglas de la API y rasparon solo datos públicos.