
man programming in the dark
Los Paquetes de Código de IA Abren Puertas a los Hackers, Según un Estudio, Descubre una Autora
El código generado por IA a menudo incluye bibliotecas de software falsas, creando nuevas oportunidades para que los hackers exploten las cadenas de suministro y comprometan a los usuarios en varias plataformas de desarrollo.
¿Apurado? Aquí están los datos rápidos:
- Los generadores de código de IA alucinan con dependencias de software inexistentes.
- Se encontraron 440,000 paquetes alucinados en 576,000 muestras de código generadas por IA.
- Los modelos de código abierto alucinan 4 veces más que los comerciales.
La investigación indica que el código generado por herramientas de IA crea importantes vulnerabilidades de seguridad que amenazan la cadena de suministro de software. La investigación, informada por primera vez por Ars Technica, señaló que los grandes modelos de lenguaje (LLMs), que operan de manera similar a los sistemas ChatGPT, generan dependencias de código ficticias que los hackers podrían usar potencialmente para fines maliciosos.
Ars informa que los investigadores evaluaron 16 modelos de IA ampliamente utilizados a través de la generación de 576,000 muestras de código. El análisis reveló que 440,000 referencias de paquetes fueron alucinadas porque apuntaban a bibliotecas de código inexistentes.
La existencia de estas dependencias fabricadas representa un riesgo de seguridad significativo. Ars informa que los atacantes pueden identificar repetidas sugerencias de IA de nombres de paquetes para subir paquetes maliciosos con esos nombres. El atacante toma el control del sistema de un desarrollador cuando instalan sin saberlo el código malicioso.
“Una vez que el atacante publica un paquete bajo un nombre alucinado, que contiene algún código malicioso, confían en que el modelo sugiera ese nombre a los usuarios desprevenidos”, explicó Joseph Spracklen, un estudiante de doctorado en la Universidad de Texas en San Antonio e investigador principal, según lo informado por Ars.
“Si un usuario confía en la salida del LLM e instala el paquete sin verificarlo cuidadosamente, la carga útil del atacante, escondida en el paquete malicioso, se ejecutaría en el sistema del usuario”, añadió Spracklen.
El método de ataque engaña al software para que seleccione una versión peligrosa de un paquete en lugar de la versión correcta prevista, según informó Ars. El ataque por confusión de dependencias afectó a grandes empresas de tecnología, incluyendo Apple, Microsoft y Tesla, durante pruebas anteriores.
Los investigadores descubrieron que los modelos de código abierto, como CodeLlama, generaron más paquetes alucinados que los modelos comerciales. Los modelos abiertos generaron referencias de código falsas a una tasa del 22%, mientras que los modelos comerciales produjeron alucinaciones al 5% o menos. El lenguaje de programación JavaScript experimentó más alucinaciones que Python porque opera dentro de un ecosistema de código más grande y complejo.
Según el estudio, estos no son solo errores aislados. El estudio informó que muchos paquetes falsos aparecieron repetidamente en diferentes pruebas, lo que los hace más peligrosos porque pueden ser blanco más fácilmente para los atacantes.
Ars explica que los atacantes podrían aprovechar los nombres repetidos de paquetes falsos subiendo malware bajo esos nombres, con la esperanza de que los desarrolladores los instalen sin saberlo.