Piratería digital: cómo los gigantes de la IA saquean internet

12:53 / 24.06.2024

Ignorar los protocolos aceptados por las compañías de IA puede llevar al caos en internet.

La compañía Perplexity, que promociona su producto como un «motor de búsqueda gratuito basado en inteligencia artificial», se ha visto envuelta en un escándalo. Después de ser acusada por Forbes de robar materiales y republicarlos en varias plataformas, Wired informó que Perplexity ignora el protocolo de exclusión de robots (robots.txt) y realiza una recolección no autorizada de datos de los sitios web de Wired y otras publicaciones del grupo Condé Nast. El sitio tecnológico The Shortcut también hizo acusaciones similares.

Ahora, según Reuters, Perplexity no es la única compañía que ignora el robots.txt y escanea sitios web para obtener contenido que luego se utiliza para entrenar sus tecnologías. La agencia cita una carta de TollBit, una startup que ayuda a los editores a cerrar acuerdos de licencia con compañías que utilizan IA. La carta afirma que «los agentes de IA de numerosas fuentes (no solo de una compañía) optan por eludir el protocolo robots.txt para extraer contenido de los sitios web».

El robots.txt es una herramienta simple, pero efectiva que permite a los propietarios de sitios web gestionar la indexación por parte de los robots de búsqueda. Aunque su uso es voluntario, se ha utilizado desde 1994.

TollBit no especificó las compañías, pero Business Insider informó que OpenAI y Anthropic, creadores de los chatbots ChatGPT y Claude respectivamente, también ignoran las señales del robots.txt. Ambos desarrolladores anteriormente afirmaron seguir las instrucciones de "no escanear" indicadas en los archivos robots.txt.

En su propia investigación, Wired descubrió que una máquina en el servidor de Amazon, "definitivamente operada por Perplexity", eludía las instrucciones del robots.txt en su sitio web. Para confirmar que Perplexity estaba escaneando su contenido, Wired proporcionó al motor los títulos de sus artículos y descripciones breves de los materiales. Como resultado, el motor devolvió textos "muy similares" a los artículos de Wired y «prácticamente sin atribución».

En una entrevista con Fast Company, el CEO de Perplexity, Aravind Srinivas, negó ignorar intencionalmente el robots.txt. Explicó que la compañía usa escáneres web de terceros, además de los propios, y que el escáner identificado por Wired era uno de ellos. Cuando Fast Company le preguntó si Perplexity había indicado al proveedor del escáner que dejara de escanear el sitio de Wired, él respondió solo que «es complicado».

Srinivas intentó justificar las acciones de la compañía, afirmando que el protocolo de exclusión de robots «no es una base legal» y sugirió que los editores y las compañías de IA deberían establecer nuevas relaciones. También insinuó que Wired había usado intencionalmente indicaciones para hacer que el chatbot de Perplexity se comportara de cierta manera, y que los usuarios comunes no obtendrían los mismos resultados. Respecto a la información inexacta generada por la herramienta, Srinivas dijo: «Nunca hemos afirmado que nunca alucinamos».

Piratería digital: cómo los gigantes de la IA saquean internet

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Noticias sobre el tema

Automatización 2.0: era de redes neuronales, pero detrás del telón — personas con ratones

Clona una voz en un minuto: Los mejores servicios de generación de voz con IA

A la sombra de los algoritmos: las bandas criminales ya no se esconden, solo se cifran

Top 7 herramientas de GeoINT: Determinar la ubicación a partir de una foto con precisión de hasta un metro

Cuando el pastor es un algoritmo: se celebra en Finlandia el primer servicio religioso con IA

«Un PIN en la frente sería más seguro»: Perplexity AI se convierte en un regalo para espías

Todo el sistema financiero en manos de GPT: ¿qué podría salir mal?

La evolución sin nosotros: internet al borde de una era en la que el ser humano es un elemento prescindible

Supercomputadoras de IA para 2030: 200 mil millones de dólares y la energía de nueve centrales nucleares