Piratería digital: cómo los gigantes de la IA saquean internet

Piratería digital: cómo los gigantes de la IA saquean internet

Ignorar los protocolos aceptados por las compañías de IA puede llevar al caos en internet.

image

La compañía Perplexity, que promociona su producto como un «motor de búsqueda gratuito basado en inteligencia artificial», se ha visto envuelta en un escándalo. Después de ser acusada por Forbes de robar materiales y republicarlos en varias plataformas, Wired informó que Perplexity ignora el protocolo de exclusión de robots (robots.txt) y realiza una recolección no autorizada de datos de los sitios web de Wired y otras publicaciones del grupo Condé Nast. El sitio tecnológico The Shortcut también hizo acusaciones similares.

Ahora, según Reuters , Perplexity no es la única compañía que ignora el robots.txt y escanea sitios web para obtener contenido que luego se utiliza para entrenar sus tecnologías. La agencia cita una carta de TollBit, una startup que ayuda a los editores a cerrar acuerdos de licencia con compañías que utilizan IA. La carta afirma que «los agentes de IA de numerosas fuentes (no solo de una compañía) optan por eludir el protocolo robots.txt para extraer contenido de los sitios web».

El robots.txt es una herramienta simple, pero efectiva que permite a los propietarios de sitios web gestionar la indexación por parte de los robots de búsqueda. Aunque su uso es voluntario, se ha utilizado desde 1994.

TollBit no especificó las compañías, pero Business Insider informó que OpenAI y Anthropic, creadores de los chatbots ChatGPT y Claude respectivamente, también ignoran las señales del robots.txt. Ambos desarrolladores anteriormente afirmaron seguir las instrucciones de "no escanear" indicadas en los archivos robots.txt.

En su propia investigación, Wired descubrió que una máquina en el servidor de Amazon, "definitivamente operada por Perplexity", eludía las instrucciones del robots.txt en su sitio web. Para confirmar que Perplexity estaba escaneando su contenido, Wired proporcionó al motor los títulos de sus artículos y descripciones breves de los materiales. Como resultado, el motor devolvió textos "muy similares" a los artículos de Wired y «prácticamente sin atribución».

En una entrevista con Fast Company, el CEO de Perplexity, Aravind Srinivas, negó ignorar intencionalmente el robots.txt. Explicó que la compañía usa escáneres web de terceros, además de los propios, y que el escáner identificado por Wired era uno de ellos. Cuando Fast Company le preguntó si Perplexity había indicado al proveedor del escáner que dejara de escanear el sitio de Wired, él respondió solo que «es complicado».

Srinivas intentó justificar las acciones de la compañía, afirmando que el protocolo de exclusión de robots «no es una base legal» y sugirió que los editores y las compañías de IA deberían establecer nuevas relaciones. También insinuó que Wired había usado intencionalmente indicaciones para hacer que el chatbot de Perplexity se comportara de cierta manera, y que los usuarios comunes no obtendrían los mismos resultados. Respecto a la información inexacta generada por la herramienta, Srinivas dijo: «Nunca hemos afirmado que nunca alucinamos».

Tu privacidad está muriendo lentamente, pero nosotros podemos salvarla

¡Únete a nosotros!