En español|Cómo los gigantes tecnológicos toman atajos para obtener datos para la IA
https://www.nytimes.com/es/2024/04/14/espanol/openai-google-meta-ia-datos.html
You have a preview view of this article while we are checking your access. When we have confirmed access, the full article content will load.
OpenAI, Google y Meta ignoraron las políticas corporativas, alteraron sus propias normas y debatieron la posibilidad de eludir la ley de derechos de autor en la búsqueda de información en línea para entrenar sus sistemas de inteligencia artificial más recientes.
Investigadores de la oficina de OpenAI en San Francisco desarrollaron una herramienta para transcribir videos de YouTube con el fin de acumular texto conversacional para el desarrollo de IA.Credit…Jason Henry para The New York Times
A finales de 2021, OpenAI enfrentó un problema de suministro.
El laboratorio de inteligencia artificial había agotado todas las reservas de textos prestigiosos en inglés de internet mientras desarrollaba su sistema de IA más reciente. Necesitaba más datos para entrenar a la siguiente versión de su tecnología, muchos más.
Por eso, los investigadores de OpenAI crearon una herramienta de reconocimiento de voz llamada Whisper. Podría transcribir el audio de videos de YouTube y ofrecer nuevos textos conversacionales que volverían más inteligentes a los sistemas de IA.
Algunos de los empleados de OpenAI hablaron de cómo una decisión así podría violar las reglas de YouTube, según señalaron tres personas que supieron de las conversaciones. YouTube, propiedad de Google, prohíbe el uso de videos para aplicaciones “independientes” de la plataforma de videos.
Un equipo de OpenAI terminó por transcribir más de un millón de horas de videos de YouTube, aseguraron esas tres personas. En el equipo se encontraban Greg Brockman, presidente de OpenAI, quien ayudó personalmente a recolectar los videos, según afirmaron dos de las personas. Los textos luego se agregaron al sistema GPT-4, que se consideraba de manera generalizada uno de los modelos de IA más poderosos del mundo y fue la base de la versión más reciente del chatbot de ChatGPT.
La carrera por liderar el campo de la IA se ha convertido en una búsqueda desesperada de los datos digitales necesarios para hacer avanzar la tecnología. Para obtener esos datos, empresas tecnológicas como OpenAI, Google y Meta han tomado atajos, ignorado políticas corporativas y debatido la posibilidad de manipular la ley, según un análisis de The New York Times.
Advertisement