Nvidia fue acusada de scraping masivo de videos para entrenar su IA

Nvidia fue acusada de scraping masivo de videos para entrenar su IA

De YouTube a Netflix: cómo el gigante tecnológico alimentó su IA.

image

Como resultado de una filtración masiva de datos de Nvidia, se descubrió que el gigante tecnológico utilizó videos de YouTube, Netflix y otras plataformas para entrenar sus sistemas de inteligencia artificial. La información fue obtenida por 404 Media durante una investigación basada en la correspondencia interna de empleados de Nvidia en Slack, correos electrónicos y documentos de la empresa.

Según la filtración, Nvidia recopiló activamente material de video para desarrollar varios productos clave: el generador de mundos 3D Omniverse, sistemas de conducción autónoma y la tecnología de "personas digitales". Aunque algunos empleados expresaron preocupaciones sobre la ética y legalidad de estas acciones, la dirección de la empresa aseguró que contaban con permisos "de los niveles más altos" para utilizar el contenido.

La principal fuente de datos fue YouTube, aunque los empleados de Nvidia también discutieron la posibilidad de utilizar contenido de Netflix y GitHub. Además, un empleado sugirió incluir películas en el conjunto de datos de entrenamiento, argumentando que las películas podrían ser una excelente fuente de datos de alta calidad para crear mundos 3D realistas y personajes ficticios.

Las dimensiones del proyecto son impresionantes: en uno de los correos electrónicos, el vicepresidente de investigación de Nvidia, Ming-Yu Liu, mencionó planes para crear una "fábrica de datos de video" que podría procesar en un día tanto video como una persona podría ver en toda su vida. Para ello, la empresa planeaba utilizar entre 20 y 30 máquinas virtuales en Amazon Web Services.

Durante las discusiones, los empleados de Nvidia consideraron varios canales de YouTube como posibles fuentes de datos. Entre ellos no solo se encontraban los canales oficiales de grandes marcas como Expedia y Architectural Digest, sino también populares tecnobloggers, incluyendo a Marques Brownlee (MKBHD).

Cuando los periodistas de 404 Media se dirigieron a Nvidia para comentar sobre la legalidad y ética de utilizar contenido protegido por derechos de autor para entrenar su IA, la empresa declaró que su práctica "cumple plenamente con la letra y el espíritu de la ley de derechos de autor".

Cabe señalar que esta no es la primera vez que Nvidia enfrenta acusaciones de uso indebido de datos. En julio de 2023, la empresa ya había sido acusada de utilizar información obtenida por una empresa externa mediante scraping no autorizado de videos de YouTube.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!