Cómo funciona OpenAI o1 “Strawberry”, la IA que hace razonamientos paso a paso, y por qué es un nuevo paradigma

Autor: Will Knight

OpenAI hizo el último gran avance en inteligencia artificial al aumentar el tamaño de sus modelos hasta proporciones vertiginosas, cuando el año pasado presentó GPT-4. La empresa anunció ahora un nuevo avance que supone un cambio de enfoque: un modelo capaz de “razonar” lógicamente a través de muchos problemas difíciles y significativamente más inteligente que la IA existente sin que haya un gran aumento de escala.

Espera, que estoy pensando

El nuevo modelo, denominado OpenAI o1, puede resolver problemas que dejan perplejos a los modelos de IA existentes, incluido el más potente de OpenAI, GPT-4o. En lugar de invocar una respuesta en un solo paso, como suele hacer un gran modelo de lenguaje (LLM), razona el problema, pensando en voz alta como lo haría una persona, antes de llegar al resultado correcto.

“Esto es lo que consideramos el nuevo paradigma en estos modelos”, explica a WIRED Mira Murati, directora de tecnología de OpenAI. “Es mucho mejor a la hora de abordar tareas de razonamiento muy complejas”.

El nuevo modelo recibió el nombre en clave de “Strawberry” dentro de OpenAI, y no es un sucesor de GPT-4o sino más bien un complemento de este, declara la empresa.

Murati asegura que OpenAI está construyendo actualmente su próximo modelo maestro, GPT-5, que será considerablemente mayor que su predecesor. Hay dos paradigmas”, según Murati, “el paradigma de la escala y este nuevo paradigma. Esperamos aunarlos”.

Un nuevo paradigma

Los LLM suelen conjurar sus respuestas a partir de enormes redes neuronales alimentadas con ingentes cantidades de datos de entrenamiento. Pueden exhibir notables habilidades lingüísticas y lógicas, pero tradicionalmente luchan con problemas sorprendentemente simples, como preguntas matemáticas rudimentarias que implican razonamiento.

Murati explica que OpenAI o1 utiliza el aprendizaje por refuerzo, que consiste en dar a un modelo respuestas positivas cuando acierta y negativas cuando no, para mejorar su proceso de razonamiento: “El modelo afina su pensamiento y ajusta las estrategias que utiliza para llegar a la respuesta”, explica. El aprendizaje por refuerzo ha permitido a las computadoras jugar con una habilidad sobrehumana y realizar tareas útiles como el diseño de chips informáticos. La técnica es también un ingrediente clave para convertir un LLM en un chatbot útil y bien educado.

Mark Chen, vicepresidente de investigación de OpenAI, hizo una demostración del nuevo modelo a WIRED, utilizándolo para resolver varios problemas que su modelo anterior, GPT-4o, no puede resolver. Entre ellos, una pregunta de química avanzada y el siguiente rompecabezas matemático alucinante: “Una princesa tiene la edad que tendrá el príncipe cuando la princesa tenga el doble de la edad que tenía el príncipe cuando la edad de la princesa era la mitad de la suma de sus edades actuales. ¿Cuál es la edad del príncipe y de la princesa?” (La respuesta correcta es que el príncipe tiene 30 años y la princesa 40).

“El [nuevo] modelo está aprendiendo a pensar por sí mismo, en lugar de tratar de imitar la forma en que pensarían los humanos”, como hace un LLM convencional, explica Chen.

OpenAI afirma que su nuevo modelo rinde notablemente mejor en una serie de conjuntos de problemas, incluidos los centrados en la codificación, las matemáticas, la física, la biología y la química. En el American Invitational Mathematics Examination (AIME), un examen para estudiantes de matemáticas, GPT-4o resolvió de media el 12% de los problemas, mientras que o1 acertó el 83%, según la empresa.

Los contras

El nuevo modelo es más lento que GPT-4o y OpenAI afirma que no siempre obtiene mejores resultados, en parte porque, a diferencia de GPT-4o, no puede realizar búsquedas en internet y no es multimodal, es decir, no puede analizar imágenes ni audio.

Desde hace algún tiempo, la mejora de las capacidades de razonamiento de los LLM es un tema candente en los círculos de investigación. De hecho, sus rivales siguen líneas de investigación similares. En julio, Google anunció AlphaProof, un proyecto que combina modelos de lenguaje con aprendizaje por refuerzo para resolver problemas matemáticos difíciles.

AlphaProof era capaz de aprender a razonar sobre problemas matemáticos fijándose en las respuestas correctas. Un reto clave a la hora de ampliar este tipo de aprendizaje es que no hay respuestas correctas para todo lo que pueda encontrar un modelo. Chen piensa que OpenAI ha conseguido construir un sistema de razonamiento mucho más general: “Creo que hemos hecho algunos avances en este sentido; creo que es parte de nuestra ventaja”, señala Chen. “En realidad es bastante bueno razonando en todos los dominios”.

El profesor de Stanford Noah Goodman, quien ha publicado trabajos sobre la mejora de las capacidades de razonamiento de los LLM, destaca que la clave para un entrenamiento más generalizado puede consistir en utilizar un “modelo de lenguaje cuidadosamente diseñado y datos elaborados a mano” para el entrenamiento. Añade que poder cambiar sistemáticamente la velocidad de los resultados por una mayor precisión sería un “buen avance”.

Yoon Kim, profesor adjunto del MIT, indica que el modo en que los LLM resuelven problemas sigue siendo actualmente un tanto misterioso, e incluso si realizan razonamientos paso a paso puede haber diferencias clave con la inteligencia humana. Se trata de sistemas que podrían tomar decisiones que afectan a muchísimas personas”, alerta, “y la pregunta más importante es si debemos confiar en la forma en que un modelo computacional toma las decisiones”.

¿IA menos peligrosa?

La técnica presentada hoy por OpenAI también puede ayudar a garantizar que los modelos de inteligencia artificial se comporten bien. Murati dice que el nuevo modelo ha demostrado ser mejor a la hora de evitar producir resultados desagradables o potencialmente dañinos razonando sobre el resultado de sus acciones: “Si piensas en enseñar a los niños, aprenden mucho mejor a alinearse con ciertas normas, comportamientos y valores una vez que pueden razonar sobre por qué están haciendo una determinada cosa”, compara.

Oren Etzioni, profesor emérito de la Universidad de Washington y destacado experto en IA, opina que es “esencial capacitar a los LLM para resolver problemas en varios pasos, utilizar herramientas y resolver problemas complejos”. Y añade: “La mera ampliación no conseguirá esto“. Etzioni manifiesta, sin embargo, que quedan más retos por delante: “Aunque se resolviera el razonamiento, seguiríamos teniendo el reto de la alucinación y la facticidad“.

Chen, de OpenAI, advierte que el nuevo enfoque de razonamiento desarrollado por la empresa demuestra que el avance de la IA no tiene por qué costar cantidades ingentes de potencia de cálculo. “Una de las cosas emocionantes del paradigma es que creemos que nos permitirá enviar inteligencia más barata”, menciona, “y creo que esa es realmente la misión principal de nuestra empresa.”

Artículo originalmente publicado en WIRED. Adaptado por Mauricio Serfatty Godoy.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Te puede interesar también
descubren-una-nueva-mini-luna-orbitando-la-tierra-|-losprimerostv
Tecnología

Descubren una nueva mini Luna orbitando la Tierra | LosPrimerosTv

Un telescopio detectó el pequeño objeto que durante un tiempo acompañará el movimiento de nuestro planeta. EXTRAÑA APARICION. El pequeño cuerpo celeste es en rigor un asteroide que, al acercarse a la Tierra a poca velocidad, fue atrapado por la gravedad planetaria. El descubrimiento de la nueva Luna que estará orbitando a nuestro planeta es

Leer Más >>
tripulante-de-polaris-interpreto-desde-el-espacio-cancion-de-“star-wars”-junto-a-orquesta-venezolana-(video)
Tecnología

Tripulante de Polaris interpretó desde el espacio canción de “Star Wars” junto a orquesta venezolana (VIDEO)

Lapatilla septiembre 14 2024, 10:23 am AME9486. ESPACIO (ESPACIO), 13/09/2024.- Fotograma tomado de la cuenta de X de Programa Polaris @PolarisProgram de la especialista de la misión Polaris Dawn, Sarah Gillis (en pantalla), interpretando un violín. En un video titulado ‘Armonía de resiliencia’ y difundido este viernes por el Programa Polaris, Gillis, quien además de

Leer Más >>
franco-colapinto-conto-como-se-corto-la-oreja-antes-de-los-ensayos-del-viernes-y-que-le-querian-dar-puntos-de-sutura-antes-de-correr
Deportes

Franco Colapinto contó cómo se cortó la oreja antes de los ensayos del viernes y que le querían dar puntos de sutura antes de correr

Franco Colapinto, tras su histórica clasificación en el 9° puesto para el Gran Premio de Azerbaiyán, compartió detalles sorprendentes sobre su fin de semana. Sufrió una lesión en la oreja durante los entrenamientos del viernes, cuando un equipo de entrenamiento para el cuello se soltó, cortándole la oreja. Aunque intentaron darle puntos de sutura, el

Leer Más >>

¿Quieres hablar con nosotros en cabina?

Nuestros Horarios en el Estudio:

9am a 11am | 12m a 1pm | 4 a 5 pm | 5 a 6pm

horario del pacifico