Categoria:

Meta presenta Llama 3.2: es multimodal y tiene voz propia

Autor: Will Knight

La nueva versión de Meta AI también podrá proporcionar comentarios e información sobre las fotos de los usuarios. Si no estás seguro de qué pájaro has fotografiado, podrá decirte la especie. Y podrá ayudar a editar imágenes, añadiendo nuevos fondos o detalles a petición. En abril, Google lanzó una herramienta similar para sus smartphones Pixel y para Google Fotos.


Columna Prompting en WIRED en Español: Un asistente en tu cocina llamado IA

En esta entrada de PROMPTING veremos el impacto de la IA al interior de la cocina. Ya no se trata solo de seguir instrucciones, sino de tener un diálogo constante con un asistente culinario que entiende y responde a tus necesidades.


Meta se apoya en Llama

Las nuevas capacidades de Meta AI se basan en una versión mejorada de Llama, el gran modelo de lenguaje (LLM, por sus siglas en inglés) de Meta. El modelo gratuito anunciado ayer también puede tener un amplio impacto, dada la amplitud que la familia Llama ha adoptado por desarrolladores y startups.

A diferencia de los modelos de OpenAI, Llama puede descargarse y ejecutarse localmente sin costo alguno, aunque existen algunas restricciones para su uso comercial a gran escala. Además, puede ajustarse más fácilmente o modificarse con formación adicional para tareas específicas.

Patrick Wendell, cofundador y vicepresidente de ingeniería de Databricks, una empresa que aloja modelos de IA como Llama, afirma que muchas empresas se sienten atraídas por los modelos abiertos porque les permiten proteger mejor sus propios datos.

Los LLM son cada vez más “multimodales”, es decir, están entrenados para manejar audio e imágenes además de texto. Esto amplía las capacidades de un modelo y permite a los desarrolladores crear nuevos tipos de aplicaciones de inteligencia artificial sobre él, incluidos los llamados agentes de IA, capaces de realizar tareas útiles en los dispositivos en su nombre. Llama 3.2 debería facilitar a los desarrolladores la creación de agentes de IA capaces con funciones básicas para navegar por internet o buscar ofertas de un determinado producto cuando se les proporciona una breve descripción.

“Los modelos multimodales son muy importantes porque los datos que utilizan las personas y las empresas no son solo texto, sino que pueden presentarse en muchos formatos diferentes, como imágenes, audio o formatos más especializados, como secuencias de proteínas y libros financieros. En los últimos años hemos pasado de modelos de lenguaje a modelos que también funcionan bien con imágenes y voces. Cada vez vemos más modalidades de datos accesibles a estos sistemas”, explica Phillip Isola, profesor del MIT.

Nathan Benaich, fundador y socio general de Air Street Capital, y autor de un influyente informe anual sobre IA, sugiere que con Llama 3.1, Meta demostró que los modelos abiertos podían por fin cerrar la brecha con sus homólogos propietarios. También añade que, los modelos multimodales tienden a superar a los de solo texto: “Estoy impaciente por ver cómo evoluciona la 3.2”.


Ilustración de un globo ocular verde, con conexiones neuronales de fondo.

El Allen Institute for AI pretende dar a desarrolladores, investigadores y empresas de nueva creación la herramienta de IA necesaria para potenciar bots que realicen tareas útiles en tus dispositivos.


Una apuesta fuerte por el código abierto

Ayer mismo, el Allen Institute for AI (Ai2), un instituto de investigación de Seattle, lanzó un avanzado modelo multimodal de código abierto llamado Molmo. Molmo tiene una licencia menos restrictiva que Llama, y Ai2 también ha dado a conocer detalles de sus datos de entrenamiento, que pueden ayudar a investigadores y desarrolladores a experimentar con el modelo y modificarlo.

Meta aseguró que publicaría varios tamaños de Llama 3.2 con las capacidades correspondientes. Además de dos instancias más potentes con 11,000 y 90,000 millones de parámetros, añadirá una medida de la complejidad y de tamaño de un modelo. Igualmente, lanzará versiones menos potentes con 1,000 y 3,000 millones de parámetros, diseñadas para funcionar bien en smartphones. Según la compañía, estas versiones se han optimizado para los chips móviles, basados en ARM, de Qualcomm y MediaTek.

La revisión de la IA de Meta llega en un momento álgido, con las gigantes tecnológicas compitiendo por ofrecer la inteligencia artificial más avanzada. La decisión de la empresa de lanzar sus modelos más preciados de forma gratuita puede darle una ventaja a la hora de sentar las bases de muchas herramientas y servicios, sobre todo cuando las compañías empiezan a explorar el potencial de los agentes de IA.

Artículo originalmente publicado en WIRED. Adaptado por Alondra Flores.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Te puede interesar también
completan-el-mapa-infrarrojo-mas-grande-de-nuestra-galaxia
Tecnología

Completan el mapa infrarrojo más grande de nuestra galaxia

Desde los antiguos griegos hasta la actualidad, nuestra galaxia ha sido objeto de estudio y admiración. “La Vía Láctea no es más que una masa de innumerables estrellas” dijo Galileo Galilei cuando la observó por primera vez con su telescopio. Hoy, cuatro siglos más tarde, se completó el mapa infrarrojo más grande de la Vía

Leer Más >>
meta-presenta-llama-3.2:-es-multimodal-y-tiene-voz-propia
Tecnología

Meta presenta Llama 3.2: es multimodal y tiene voz propia

La nueva versión de Meta AI también podrá proporcionar comentarios e información sobre las fotos de los usuarios. Si no estás seguro de qué pájaro has fotografiado, podrá decirte la especie. Y podrá ayudar a editar imágenes, añadiendo nuevos fondos o detalles a petición. En abril, Google lanzó una herramienta similar para sus smartphones Pixel

Leer Más >>

¿Quieres hablar con nosotros en cabina?

Nuestros Horarios en el Estudio:

9am a 11am | 12m a 1pm | 4 a 5 pm | 5 a 6pm

horario del pacifico