OpenAI y Google entrenan sus modelos de IA con transcripciones de videos de YouTube, según NYT

La firma que dirige Sam Altman creó una herramienta llamada Whisper para desgrabar esos videos

Tiempo de lectura: -'

08 de abril de 2024 a las 08:20

OpenAI, Meta y Google necesitan gran grandes cantidades de datos para entrenar sus modelos de inteligencia artificial (IA), que encuentran en Internet, en servicios como YouTube, arriesgándose a las potenciales violaciones de derechos de autor en las que pueden incurrir.

La carrera por entrenar el modelo de IA más potente lleva a las compañías tecnológicas a buscar nuevas fuentes de datos, incluso pasando por alto las políticas de los servicios digitales que prohíben esta práctica.

Uno de los casos es el uso que en OpenAI han hecho de los videos de YouTube, como informa The New York Times. Fuentes conocedoras de un debate interno han compartido que la firma que dirige Sam Altman creó una herramienta llamada Whisper para transcripción los videos de esta plataforma propiedad de Google.

Leé también

Musk demanda a Open AI por anteponer el lucro al "beneficio de la humanidad"

Las transcripciones se habrían usado para entrenar GPT-4, considerado uno de los modelos de lenguaje grande más avanzados de la actualidad. Este hecho iría en contra de las políticas de YouTube, como ya ha confirmado recientemente el director ejecutivo de YouTube, Neal Mohan, en referencia a un supuesto entrenamiento de otra IA de OpenAI, Sora.

Sora es una herramienta de IA generativa que crea videos realistas a partir de una descripción de texto. Según adelantó The Wall Street Journal, OpenAI habría utilizado videos de YouTube, pese a que la directora de Tecnología de esta empresa, Mira Murati, no fue capaz de confirmarlo, y se limitó a indicar que los datos que utilizan para entrenar a Sora son "datos disponibles públicamente y datos con licencia".

Mohan explicó que se trata de un uso indebido porque los creadores de contenido que deciden publicar videos en YouTube esperan que su trabajo esté protegidos por los términos del servicio.

Leé también

Así es Voice Engine, la IA de OpenAI capaz de clonar voces a partir de audios de 15 segundos

Sin embargo, y según fuentes conocedoras de las prácticas de Google, la dueña de YouTube también habría usado las transcripciones de los videos para entrenar sus modelos de IA, especialmente tras un cambio en los términos de uso que introdujo el año pasado, y que se recogen en mensajes internos vistos por The Times.

Meta es otra de las compañías tecnológicas que desarrolla modelos de lenguaje grande e inteligencia artificial. En su caso, habría recurrido a Internet para recoger la gran cantidad de datos que necesitan sus modelos, incluso si los contenidos recogidos están protegidos y se enfrentan a acciones judiciales, como se recoge en grabaciones internas a las que ha tenido acceso el medio citado.

Europa Press