
OpenAI y Google utilizan transcripciones de videos de YouTube para entrenar sus modelos de IA
Según un informe del New York Times, OpenAI y Google han utilizado transcripciones de videos de YouTube para entrenar sus modelos de inteligencia artificial, lo que podría violar los derechos de autor de los creadores. El informe cita a numerosas personas con conocimiento de las prácticas de estas empresas, que han ido a grandes extremos para maximizar la cantidad de datos que pueden alimentar a sus IA. Este informe llega apenas unos días después de que el CEO de YouTube, Neal Mohan, dijera en una entrevista con Bloomberg Originals que el supuesto uso de videos de YouTube por parte de OpenAI para entrenar su nuevo generador de texto a video, Sora, iría en contra de las políticas de la plataforma.
OpenAI utiliza su herramienta Whisper para transcribir videos de YouTube
De acuerdo con el NYT, OpenAI utilizó su herramienta de reconocimiento de voz Whisper para transcribir más de un millón de horas de videos de YouTube, que luego se utilizaron para entrenar a GPT-4. Según un informe de The Information, OpenAI ya había utilizado videos de YouTube y podcasts para entrenar a sus dos sistemas de IA. Se informa que el presidente de OpenAI, Greg Brockman, fue uno de los miembros de este equipo. Según las reglas de Google, «el raspado o descarga no autorizados de contenido de YouTube» no está permitido. Matt Bryant, portavoz de Google, le dijo al NYT que la compañía no estaba al tanto de ningún uso de este tipo por parte de OpenAI.
Google también utiliza videos de YouTube para entrenar sus modelos de IA
Sin embargo, el informe afirma que había personas en Google que sabían pero no tomaron medidas contra OpenAI porque Google también estaba utilizando videos de YouTube para entrenar sus propios modelos de IA. Google le dijo al NYT que solo lo hace con videos de creadores que han aceptado participar en un programa experimental. Engadget se ha comunicado con Google y OpenAI para obtener comentarios.
Google cambió su política de privacidad en 2022
El informe del NYT también afirma que Google modificó su política de privacidad en junio de 2022 para cubrir de manera más amplia su uso de contenido disponible públicamente, incluidos Google Docs y Google Sheets, para entrenar sus modelos de IA y productos. Bryant le dijo al NYT que esto solo se hace con el permiso de los usuarios que optan por las funciones experimentales de Google, y que la compañía «no comenzó a entrenar en tipos adicionales de datos basados en este cambio de lenguaje».
En resumen, el uso de transcripciones de videos de YouTube por parte de OpenAI y Google para entrenar sus modelos de IA ha generado controversia y preocupación por parte de los creadores de contenido. Aunque Google afirma que solo utiliza videos de creadores que han dado su consentimiento, el informe del NYT sugiere que esto no siempre ha sido así. Esperamos que estas empresas aborden estas preocupaciones y tomen medidas para proteger los derechos de autor de los creadores en el futuro.