
Image by Nokia621, from Wiki Commons
Los correos internos de Meta revelan la descarga masiva de libros pirateados para el entrenamiento de IA
Nuevos correos electrónicos, recientemente desclasificados, han salido a la luz como lo que los autores de libros están llamando la “prueba más condenatoria” contra Meta en un litigio en curso por derechos de autor, según lo informado por primera vez por Ars Technica.
¿Apurada? ¡Aquí están los datos rápidos!
- Meta descargó ilegalmente 81.7 terabytes de libros pirateados de bibliotecas clandestinas como LibGen y Z-Library.
- Los correos electrónicos internos muestran que los empleados de Meta manifestaron preocupaciones legales acerca de las descargas y la distribución de material con derechos de autor.
- Presuntamente, Meta ocultó las descargas ilegales evitando los servidores de Facebook y minimizando la actividad de distribución.
Ars Technica informa que los autores alegan que Meta entrenó ilegalmente sus modelos de IA en libros pirateados, y los correos electrónicos revelan preocupaciones internas sobre la legalidad de la descarga y distribución de material con derechos de autor.
El mes pasado, Meta admitió haber descargado mediante torrent un conjunto de datos controvertido conocido como LibGen, que contiene decenas de millones de libros pirateados.
Sin embargo, los detalles permanecieron inciertos hasta que se hicieron públicos los correos electrónicos sin redactar.
De acuerdo con la presentación judicial de los autores, Meta descargó por torrent “al menos 81.7 terabytes de datos a través de múltiples bibliotecas sombrías a través del sitio Anna’s Archive, incluyendo al menos 35.7 terabytes de datos de Z-Library y LibGen.” Además, “Meta también descargó previamente 80.6 terabytes de datos de LibGen.”
“La magnitud del esquema ilegal de descargas torrent de Meta es asombrosa,” señaló la presentación de los autores, destacando que incluso “actos mucho menores de piratería de datos, solo el .008 por ciento de la cantidad de obras con derechos de autor que Meta pirateó, han resultado en que los jueces remitan la conducta a la oficina de los fiscales de los EE. UU. para su investigación criminal.”
Ars Technica señala que los correos electrónicos también revelan una inquietud interna entre los empleados de Meta. En abril de 2023, el ingeniero de investigación Nikolay Bashlykov escribió: “Descargar torrents desde una laptop corporativa no parece correcto”, agregando un emoji sonriente.
Expresó su preocupación acerca de usar las direcciones IP de Meta “para cargar contenido pirata a través de torrents”. Para septiembre de 2023, Bashlykov había dejado el humor a un lado, consultando al equipo legal de Meta y advirtiendo que “usar torrents implicaría ‘sembrar’ los archivos, es decir, compartir el contenido hacia el exterior, esto podría no ser legalmente correcto.”
A pesar de estas advertencias, los autores alegan que Meta continuó con la descarga y distribución de contenido pirateado, incluso intentando ocultar sus actividades.
Ars Technica informa que mensajes internos muestran que Meta evitó usar los servidores de Facebook para descargar el conjunto de datos para “evitar” el “riesgo” de que alguien “rastree al distribuidor/descargador”, según lo descrito por el investigador Frank Zhang.
Michael Clark, un ejecutivo de Meta, también admitió en un testimonio que se modificaron las configuraciones “para que ocurriera la menor cantidad posible de siembra.”
Las autoras ahora argumentan que el personal de Meta involucrado en la decisión de torrenting debe ser nuevamente interrogado, ya que la nueva evidencia supuestamente “contradice el testimonio previo de la deposición.”
Por ejemplo, mientras el CEO Mark Zuckerberg afirmó no estar involucrado en el uso de LibGen para el entrenamiento de IA, mensajes sin censura sugieren que la “decisión de usar LibGen ocurrió” después de “una previa escalada a MZ.”
Ars Technica informa que Meta ha sostenido que su entrenamiento de IA en LibGen constituye un “uso justo” y negó cualquier distribución ilegal de las obras de los autores. Sin embargo, las revelaciones sobre el torrenting han complicado su defensa, permitiendo a los autores ampliar sus reclamaciones por infracción directa de derechos de autor.
A medida que avanza el caso, Meta enfrenta un creciente escrutinio por su manejo del material con derechos de autor, con los autores decididos a responsabilizar al gigante tecnológico por lo que describen como un “esquema masivo de torrenteo ilegal”.