La inteligencia artificial de META evoluciona hacia lo multimodal. Así, su nuevo modelo de código abierto Llama 3.2, frente a su predecesor, puede entender, leer y razonar con imágenes, además de poder editarlas desde FACEBOOK o WhatsApp. ¿Es mejor que ChatGPT 4o? Veamos.

Meta lanzar Llama 3.2
META lanza Llama 3.2. ¿Es mejor que GPT-4O?

META lanza su nuevo modelo de código abierto Llama 3.2, que evoluciona su versión 3.1 anterior hacia las capacidades multimodales, más allá de interactuar sólo con texto, y ahora también con imágenes.

La versión multimodal de Llama 3.2 presentada en Meta Connect

En su evento META Connect 2024, la tecnológica informó de que Llama 3.2 se destaca por ser el primer modelo de META capaz de procesar tanto imágenes como texto. Esto le permite:

  • Comprender tablas y gráficos
  • Generar subtítulos para imágenes
  • Localizar objetos en fotos
  • Extraer detalles de imágenes y escribir descripciones

Esta capacidad multimodal permite nuevas aplicaciones, como enviar fotos al asistente Meta AI para obtener información o recetas basadas en imágenes de platillos.

Rendimiento y eficiencia del nuevo modelo de Meta AI

Llama 3.2 se presenta en dos versiones principales:

  • Un modelo de 90 mil millones de parámetros
  • Un modelo más ligero de 11 mil millones de parámetros

Además, incluye versiones optimizadas para dispositivos ARM, permitiendo su ejecución en procesadores Qualcomm y MediaTek.

En comparación, GPT-4 opera con aproximadamente 1.7 billones de parámetros, lo que le confiere mayor capacidad de procesamiento para tareas complejas.

Benchmarks y comparación de Llama 3.2 con otras IA

Según META, Llama 3.2 es competitivo frente a otros modelos comerciales:

  • En algunos casos, supera a Claude 3 Haiku y GPT-4o mini
  • Destaca en pruebas de reconocimiento de imágenes y comprensión visual

En pruebas específicas:

  • Llama 3 obtuvo un 82% en la prueba MMLU de 5 disparos, cerca del 86.4% de GPT-4
  • En tareas de razonamiento avanzado, Llama 3 logró un 35.7% en benchmarks de nivel posgrado, comparado con el 39.5% de GPT-4
  • En codificación, GPT-4 mantiene una ventaja clara con un 85.9% en la prueba HumanEval, frente al 81.7% de Llama 3

Ventajas de Llama 3.2

  1. Código abierto: A diferencia de GPT-4, Llama 3.2 es de código abierto, lo que permite mayor accesibilidad y adaptabilidad.
  2. Eficiencia: Es más eficiente en el procesamiento de ventanas de contexto cortas, ideal para respuestas rápidas y precisas.
  3. Adaptabilidad: Permite ajustes para mejorar la seguridad y alineación con expectativas humanas.
  4. Costo: Al ser de código abierto, ofrece una ventaja considerable en términos de costo.

Llama 3.2 frente a Llama 3.1 y comparado con GPT-4o

Llama 3.2 muestra un aumento de rendimiento decente sobre su predecesor Llama 3.1 para algunas métricas, pero en comparación con GPT-4o, se queda algo atrás.

Tal vez una comparación con GPT-4o mini sea más adecuada. Esta comparativa te muestra los casos de uso y las capacidades de Llama 3.2 vs 3.1 y GPT-4o:

Característica Llama 3.2 Llama 3.1 GPT-4o
Fecha de lanzamiento Septiembre de 2024 Julio 2024 Marzo de 2024
Parámetros 1B, 3B, 11B y 90B 405 mil millones No se indica explícitamente; estimado en más de 200 mil millones
Longitud del contexto Hasta 128.000 tokens Hasta 128.000 tokens Hasta 128.000 tokens
Capacidades multimodales Sí (texto + visión) Solo texto Sí (texto + audio + imagen + vídeo)
Interacción de voz No
Opciones de implementación Dispositivos de borde (1B y 3B), nube Principalmente basado en la nube Principalmente basado en la nube
Puntos de referencia de rendimiento Competitivo con Claude y GPT-4o-mini en varias tareas Fuerte en el procesamiento de texto Fuerte en la generación de texto; sobresale en interacciones en tiempo real
Datos de entrenamiento Mejorado con datos multimodales Amplios datos de formación multilingüe Amplia capacitación en diversos conjuntos de datos
Características de seguridad Llama Guard mejorada para tareas multimodales Llama Guard 3, Prompt Guard Funciones de seguridad integradas para la moderación de contenido
Casos de uso Computación de borde, reconocimiento de imágenes, aplicaciones de voz Investigación, aplicaciones comerciales Servicio al cliente, creación de contenido, traducciones en tiempo real
Accesibilidad Fuente abierta Fuente abierta Propietario; acceso limitado para algunas características
Velocidad de respuesta Baja latencia en dispositivos de borde Alto Aproximadamente 232-320 milisegundos
Innovaciones clave Funcionalidad multimodal e integración de voz Longitud extendida del contexto Capacidades de omni-entrada (texto, audio, imagen)

Aunque Llama 3.2 representa un avance significativo y compite con GPT-4 en varios aspectos, es difícil determinar un claro ganador. La elección entre ambos dependerá del caso de uso específico:

  • Llama 3.2 es preferible para respuestas rápidas y precisas, ideal en entornos que requieren velocidad y eficiencia (WhatsApp, Facebook, por ejemplo).
  • GPT-4 sigue siendo superior en tareas que demandan una comprensión profunda y detallada de información compleja

📩 Suscríbete a nuestra newsletter semanal que ya leen 1.200 directivos de los medios


▶︎ Conversa con discover GPT Pro, chatbot de IA entrenado para ganar audiencia en Google Discover

▶︎ Apúntate al canal de WhatsApp de #ReddePeriodistas

Noticias sobre medios, audiencias, Google Discover e IA

Foto del avatar

David González

Editor y fundador de ReddePeriodistas.com

Soy periodista y economista desde hace más de 20 años. Me especialicé en Cultura Digital, Tecnología y Negocios. Creé varios proyectos de contenidos digitales; trabajé y/o colaboré para medios nacionales e internacionales. Ahora, escribo sobre cómo fluctúan las audiencias de los medios y cómo impactan los cambios de algoritmo en su modelo de negocio, sobre todo, el de Google Discover. Actualmente, soy editor y fundador del diario digital ReddePeriodistas.com, Noticias que Mejoran Audiencias; y editor de su newsletter semanal, que ya leen más de 1.200 directivos de los medios en España y América Latina. Contáctame en LinkedIn. Sígueme en Twitter.