META AI lanza Llama 3.2. Comprende imágenes y edita fotos si está integrado en WhatsApp o Instagram – #RedDePeriodistas

La inteligencia artificial de META evoluciona hacia lo multimodal. Así, su nuevo modelo de código abierto Llama 3.2, frente a su predecesor, puede entender, leer y razonar con imágenes, además de poder editarlas desde FACEBOOK o WhatsApp. ¿Es mejor que ChatGPT 4o? Veamos.

Meta lanzar Llama 3.2 — META lanza Llama 3.2. ¿Es mejor que GPT-4O?

META lanza su nuevo modelo de código abierto Llama 3.2, que evoluciona su versión 3.1 anterior hacia las capacidades multimodales, más allá de interactuar sólo con texto, y ahora también con imágenes.

La versión multimodal de Llama 3.2 presentada en Meta Connect

En su evento META Connect 2024, la tecnológica informó de que Llama 3.2 se destaca por ser el primer modelo de META capaz de procesar tanto imágenes como texto. Esto le permite:

Comprender tablas y gráficos
Generar subtítulos para imágenes
Localizar objetos en fotos
Extraer detalles de imágenes y escribir descripciones

Esta capacidad multimodal permite nuevas aplicaciones, como enviar fotos al asistente Meta AI para obtener información o recetas basadas en imágenes de platillos.

Rendimiento y eficiencia del nuevo modelo de Meta AI

Llama 3.2 se presenta en dos versiones principales:

Un modelo de 90 mil millones de parámetros
Un modelo más ligero de 11 mil millones de parámetros

Además, incluye versiones optimizadas para dispositivos ARM, permitiendo su ejecución en procesadores Qualcomm y MediaTek.

Lea Tambien: Mirá cualquier canal de TV gratis desde tu computadora o celular con este truco que no falla y es totalmente legal

En comparación, GPT-4 opera con aproximadamente 1.7 billones de parámetros, lo que le confiere mayor capacidad de procesamiento para tareas complejas.

Benchmarks y comparación de Llama 3.2 con otras IA

Según META, Llama 3.2 es competitivo frente a otros modelos comerciales:

En algunos casos, supera a Claude 3 Haiku y GPT-4o mini
Destaca en pruebas de reconocimiento de imágenes y comprensión visual

En pruebas específicas:

Llama 3 obtuvo un 82% en la prueba MMLU de 5 disparos, cerca del 86.4% de GPT-4
En tareas de razonamiento avanzado, Llama 3 logró un 35.7% en benchmarks de nivel posgrado, comparado con el 39.5% de GPT-4
En codificación, GPT-4 mantiene una ventaja clara con un 85.9% en la prueba HumanEval, frente al 81.7% de Llama 3

Ventajas de Llama 3.2

Código abierto: A diferencia de GPT-4, Llama 3.2 es de código abierto, lo que permite mayor accesibilidad y adaptabilidad.
Eficiencia: Es más eficiente en el procesamiento de ventanas de contexto cortas, ideal para respuestas rápidas y precisas.
Adaptabilidad: Permite ajustes para mejorar la seguridad y alineación con expectativas humanas.
Costo: Al ser de código abierto, ofrece una ventaja considerable en términos de costo.

Llama 3.2 frente a Llama 3.1 y comparado con GPT-4o

Llama 3.2 muestra un aumento de rendimiento decente sobre su predecesor Llama 3.1 para algunas métricas, pero en comparación con GPT-4o, se queda algo atrás.

Lea Tambien: No más recompensas por errores: finaliza el programa de recompensas de seguridad de Google Play - LA NOTA DEL DÍA MÉXICO

Tal vez una comparación con GPT-4o mini sea más adecuada. Esta comparativa te muestra los casos de uso y las capacidades de Llama 3.2 vs 3.1 y GPT-4o:

Característica	Llama 3.2	Llama 3.1	GPT-4o
Fecha de lanzamiento	Septiembre de 2024	Julio 2024	Marzo de 2024
Parámetros	1B, 3B, 11B y 90B	405 mil millones	No se indica explícitamente; estimado en más de 200 mil millones
Longitud del contexto	Hasta 128.000 tokens	Hasta 128.000 tokens	Hasta 128.000 tokens
Capacidades multimodales	Sí (texto + visión)	Solo texto	Sí (texto + audio + imagen + vídeo)
Interacción de voz	SÍ	No	SÍ
Opciones de implementación	Dispositivos de borde (1B y 3B), nube	Principalmente basado en la nube	Principalmente basado en la nube
Puntos de referencia de rendimiento	Competitivo con Claude y GPT-4o-mini en varias tareas	Fuerte en el procesamiento de texto	Fuerte en la generación de texto; sobresale en interacciones en tiempo real
Datos de entrenamiento	Mejorado con datos multimodales	Amplios datos de formación multilingüe	Amplia capacitación en diversos conjuntos de datos
Características de seguridad	Llama Guard mejorada para tareas multimodales	Llama Guard 3, Prompt Guard	Funciones de seguridad integradas para la moderación de contenido
Casos de uso	Computación de borde, reconocimiento de imágenes, aplicaciones de voz	Investigación, aplicaciones comerciales	Servicio al cliente, creación de contenido, traducciones en tiempo real
Accesibilidad	Fuente abierta	Fuente abierta	Propietario; acceso limitado para algunas características
Velocidad de respuesta	Baja latencia en dispositivos de borde	Alto	Aproximadamente 232-320 milisegundos
Innovaciones clave	Funcionalidad multimodal e integración de voz	Longitud extendida del contexto	Capacidades de omni-entrada (texto, audio, imagen)

Aunque Llama 3.2 representa un avance significativo y compite con GPT-4 en varios aspectos, es difícil determinar un claro ganador. La elección entre ambos dependerá del caso de uso específico:

Llama 3.2 es preferible para respuestas rápidas y precisas, ideal en entornos que requieren velocidad y eficiencia (WhatsApp, Facebook, por ejemplo).
GPT-4 sigue siendo superior en tareas que demandan una comprensión profunda y detallada de información compleja

Lea Tambien: Un tesoro prehistórico descubierto en Texas causa revuelo y plantea nuevos interrogantes

📩 Suscríbete a nuestra newsletter semanal que ya leen 1.200 directivos de los medios

▶︎ Conversa con discover GPT Pro, chatbot de IA entrenado para ganar audiencia en Google Discover

▶︎ Apúntate al canal de WhatsApp de #ReddePeriodistas

Noticias sobre medios, audiencias, Google Discover e IA

David González

Editor y fundador de ReddePeriodistas.com

Soy periodista y economista desde hace más de 20 años. Me especialicé en Cultura Digital, Tecnología y Negocios. Creé varios proyectos de contenidos digitales; trabajé y/o colaboré para medios nacionales e internacionales. Ahora, escribo sobre cómo fluctúan las audiencias de los medios y cómo impactan los cambios de algoritmo en su modelo de negocio, sobre todo, el de Google Discover. Actualmente, soy editor y fundador del diario digital ReddePeriodistas.com, Noticias que Mejoran Audiencias; y editor de su newsletter semanal, que ya leen más de 1.200 directivos de los medios en España y América Latina. Contáctame en LinkedIn. Sígueme en Twitter.

Artículos Recientes

New centre-right government in France unveiled

Un juez permite que siga adelante la demanda por difamación contra Netflix por “Bebé reno” | CNN

Raúl de Molina comparte más de su viaje a España – El Diario NY

Angelina Jolie brilla en el Festival de Cine de Nueva York junto a sus hijos

Harris propone reforma migratoria en visita a la frontera con México

El huracán Helene deja más de 115 muertos en el Sureste de Estados Unidos – Periódico La Patria

Analistas estiman que el iPhone 16 no ha tenido un buen comienzo, pero algunos todavía prevén un “superciclo” | CNN

Categoria: Tecnología

META AI lanza Llama 3.2. Comprende imágenes y edita fotos si está integrado en WhatsApp o Instagram – #RedDePeriodistas

La versión multimodal de Llama 3.2 presentada en Meta Connect

Rendimiento y eficiencia del nuevo modelo de Meta AI

Benchmarks y comparación de Llama 3.2 con otras IA

Ventajas de Llama 3.2

Llama 3.2 frente a Llama 3.1 y comparado con GPT-4o

Noticias sobre medios, audiencias, Google Discover e IA

Deja una respuesta Cancelar la respuesta

Solicitudes de alquiler, reparaciones de apartamentos y desalojos: tus derechos en NY – Documented

VÍDEO | El terrorífico

China presenta los trajes espaciales con los que aspira a pisar por primera vez la Luna

Bomba en Telegram: eliminaron para siempre una función clave

Acuerdo en la poltica de Estados Unidos contra el Servicio Secreto: el ataque contra Donald Trump era “evitable”

¿Quieres hablar con nosotros en cabina?

Contáctenos:

Menu: