Image by Marco Verch, from Unsplash
Perplejidad Acusada de Rastrear Sitios de Manera Ilegal con Bots Ocultos
Cloudflare ha acusado al motor de respuestas IA Perplexity de utilizar técnicas sigilosas para rastrear sitios web contra su voluntad, lo que genera preocupaciones sobre la privacidad de los datos y la confianza en línea.
¿Apurada? Aquí van los hechos rápidos:
- Cloudflare eliminó a Perplexity de la lista de bots verificados.
- Las pruebas demostraron que Perplexity accedía a sitios web privados y restringidos.
- Los bots no declarados imitan a Chrome y rotan las IPs para evitar ser detectados.
En un detallado informe, Cloudflare dice que Perplexity está “modificando su agente de usuario y cambiando sus ASNs de origen para ocultar su actividad de rastreo”, incluso cuando los sitios lo bloquearon explícitamente a través de ‘robots.txt’ y reglas de firewall.
Cloudflare identifica este comportamiento como una violación de los estándares web, lo que les llevó a eliminar a Perplexity de su lista de bots verificados.
Cloudflare desarrolló sitios web privados sin restricciones de rastreo con el fin de probar los métodos de Perplexity. La compañía descubrió que Perplexity continuaba proporcionando información completa sobre esas páginas a pesar de las reglas de no rastreo.
“Esta respuesta fue inesperada, ya que tomamos todas las precauciones necesarias para evitar que sus rastreadores pudieran recuperar estos datos”, dijo Cloudflare.
La investigación mostró que los bots oficiales de Perplexity utilizaban una identidad falsa de navegador que imitaba a Google Chrome para eludir las protecciones cuando se les bloqueaba. Estos rastreadores sigilosos realizaban de 3 a 6 millones de solicitudes diarias, rotando a través de IPs desconocidos y disfrazando su origen.
En contraste, Cloudflare elogió a OpenAI por seguir un buen comportamiento en la web. Cuando se probó bajo las mismas condiciones, “ChatGPT-User obtuvo el archivo de robots y dejó de rastrear cuando se le prohibió”.
Cloudflare dice que han actualizado sus sistemas de protección para detectar y bloquear los rastreadores ocultos de Perplexity. También están instando a los operadores de bots a ser más transparentes y seguir prácticas web éticas.
“Existen preferencias claras de que los rastreadores deben ser transparentes, cumplir un propósito claro, realizar una actividad específica y, lo más importante, seguir las directivas y preferencias del sitio web”, afirmó Cloudflare.
ArsTechnica señala que Cloudflare no está solo en señalar las tácticas de Perplexity. El CEO de Reddit, Steve Huffman, describió el bloqueo de Perplexity, Microsoft y Anthropic como “un verdadero dolor” porque trataban todo el contenido en línea como un juego justo.
Recientemente, la BBC también amenazó con tomar acciones legales, acusando a Perplexity de rascar su sitio web para entrenar su modelo de IA predeterminado sin permiso.
ArsTechnica también señala que Forbes y Wired han acusado a Perplexity de plagio. Wired informó que la empresa eludió las restricciones de robots.txt mientras utilizaba direcciones IP sospechosas y ocultaba su bot para evadir medidas de bloqueo.
Con las empresas de IA buscando cada vez más datos para entrenamiento, la lucha sobre quién controla el contenido en línea se está intensificando. La movida de Cloudflare destaca la creciente resistencia de los editores y plataformas que buscan proteger sus fronteras digitales.