Photo by Joshua Woroniecki on Unsplash
Investigadores de Cloudflare Afirman que Perplexity Está Raspando Sitios Web a Pesar del Bloqueo de Bots de IA
Las investigadoras de la proveedora de infraestructura de internet, Cloudflare, afirman que el sistema de IA, Perplexity, ha estado extrayendo contenido de sitios web sin permiso, incluso cuando los editores han implementado bloqueos para bots de IA.
¿Apurada? Aquí están los hechos rápidos:
- Cloudflare afirma que Perplexity ha estado extrayendo contenido de sitios web sin permiso.
- Los investigadores confirmaron el comportamiento de “rastreo sigiloso” de Perplexity incluso cuando los editores implementan bloqueos de bots de IA.
- Un portavoz de Perplexity calificó el informe de Cloudflare como un “truco publicitario”.
Según el informe compartido por Cloudflare el lunes, Perplexity rastrea sitios web utilizando su agente de usuario por defecto y cambia su identidad para eludir estos bloqueos. Los expertos de Cloudflare confirmaron este comportamiento de “rastreo sigiloso”.
“Vemos evidencias continuas de que Perplexity está modificando repetidamente su agente de usuario y cambiando sus ASNs de origen para ocultar su actividad de rastreo, así como ignorando, o a veces incluso fallando al intentar obtener, los archivos robots.txt”, escribieron las investigadoras.
Se espera que los rastreadores sean transparentes, declaren claramente su propósito y respeten las preferencias de los sitios web, pero las investigadoras afirman que Perplexity no ha estado siguiendo estos principios de confianza. Esta conclusión se alcanzó tras una investigación motivada por las quejas de los clientes.
“Recibimos quejas de clientes que tanto habían prohibido la actividad de rastreo de Perplexity en sus archivos robots.txt como también habían creado reglas de WAF para bloquear específicamente ambos rastreadores declarados por Perplexity: PerplexityBot y Perplexity-User”, escribieron las investigadoras. “Estos clientes nos dijeron que Perplexity todavía podía acceder a su contenido incluso cuando vieron que sus bots estaban bloqueados con éxito.”
Las investigadoras de Cloudflare dijeron que verificaron estas afirmaciones replicando los bloqueos y realizando múltiples pruebas para observar el comportamiento del rastreador. En una prueba, crearon nuevos dominios que aún no habían sido indexados e incluyeron archivos robots.txt para bloquear los “bots respetuosos”. Posteriormente, consultaron a Perplexity para obtener información específica sobre los dominios restringidos y descubrieron que el motor de respuestas impulsado por inteligencia artificial aún proporcionaba detalles e información precisa sobre el sitio web.
“Esta respuesta fue inesperada, ya que habíamos tomado todas las precauciones necesarias para evitar que estos datos fueran recuperables por sus rastreadores”, añadieron las investigadoras.
Un portavoz de Perplexity, Jesse Dwyer, calificó la investigación como un “truco publicitario” en una declaración para The Verge. Dwyer añadió que hay “malentendidos” en el informe de Cloudflare.
Cloudflare ha estado desarrollando múltiples herramientas para ayudar a los editores a prevenir el rastreo no autorizado de IA. En marzo, Cloudflare lanzó “AI Labyrinth”, una herramienta que redirige a los rastreadores no autorizados hacia laberintos de contenido generados por IA. El mes pasado, lanzó “Pay Per Crawl”, un sistema para cobrar a los bots de IA por acceder al contenido de los editores.