Las GPU NVIDIA impulsan el modelo Llama 3 de próxima generación de Meta

Sara abril 20, 2024 Inteligencia Artificial

NVIDIA anunció que los LLM Llama 3 de Meta están construidos con GPU NVIDIA y optimizados para ejecutarse en todas las plataformas, desde servidores hasta PC.
Los LLM de IA Llama 3 de próxima generación de Meta ya están aquí y el poder detrás de NVIDIA

NVIDIA anunció hoy optimizaciones en todas sus plataformas para acelerar Meta Llama 3, la última generación de su modelo de lenguaje grande (LLM). El modelo abierto combinado con la computación acelerada de NVIDIA equipa a desarrolladores, investigadores y empresas para innovar de manera responsable en una amplia gama de aplicaciones.

Capacitado en IA de NVIDIA

Los metaingenieros entrenaron a Llama 3 en un clúster de PC que contenía 24.576 GPU H100 Tensor Core conectadas a una red Quantum-2 InfiniBand. Con el apoyo de NVIDIA, Meta ajustó sus arquitecturas de red, software y modelos para su LLM insignia.
Para avanzar aún más en la vanguardia de la IA generativa, Meta anunció recientemente planes para actualizar su infraestructura a 350.000 GPU H100.
Poniendo a Llama 3 a trabajar

Las versiones aceleradas de Llama 3 en GPU NVIDIA están disponibles hoy para su uso en la nube, el centro de datos y la PC.

Las GPU NVIDIA impulsan el modelo Llama 3 de próxima generación de Meta, IA optimizada en todas las plataformas, incluido RTX 2
Las empresas pueden ajustar Llama 3 con sus datos utilizando NVIDIA NeMo, un marco de código abierto para LLM que forma parte de la plataforma segura y compatible con NVIDIA AI Enterprise. Los modelos personalizados se pueden optimizar para la salida con NVIDIA TensorRT-LLM e implementar con Triton Inference Server.

Portando Llama 3 a dispositivos y PC

Llama 3 también se ejecuta en Jetson Orin para robótica y dispositivos informáticos de vanguardia, creando agentes interactivos como los del Jetson AI Lab. Además, las GPU RTX y GeForce RTX para estaciones de trabajo y PC aceleran la inferencia en Llama 3. Estos sistemas ofrecen a los desarrolladores el objetivo de tener más de 100 millones de sistemas acelerados por NVIDIA en todo el mundo.

Obtenga un rendimiento óptimo con Llama 3

La mejor práctica al usar LLM para un chatbot implica un equilibrio entre baja latencia, buena velocidad de lectura y utilización óptima de la GPU para reducir costos. Un servicio de este tipo necesitaría entregar tokens, el equivalente aproximado de palabras a un LLM, a una velocidad de aproximadamente 10 tokens/segundo, que es aproximadamente el doble de la velocidad de lectura de un usuario.

Aplicando estos puntos de referencia, una sola GPU NVIDIA H200 Tensor Core produjo aproximadamente 3000 tokens por segundo (suficiente para atender aproximadamente a 300 usuarios simultáneos) en la primera prueba utilizando la versión Llama 3 con 70 mil millones de parámetros. Esto significa que un único servidor NVIDIA HGX con ocho GPU H200 puede entregar 24 000 tokens por segundo y admitir más de 2400 usuarios simultáneos, optimizando aún más los costos.

Para los dispositivos de borde, la versión de ocho mil millones de parámetros de Llama 3 produjo hasta 40 monedas/segundo en el Jetson AGX Orin y 15 monedas/segundo en el Jetson Orin Nano.

Desarrollo de modelos comunitarios

Como participante activo de código abierto, NVIDIA se compromete a optimizar el software comunitario que ayuda a los usuarios a resolver sus problemas más difíciles. Los modelos de código abierto promueven la transparencia de la IA y permiten a los usuarios compartir ampliamente su trabajo sobre la seguridad y la resiliencia de la IA.

Tech Espacio Última hora Tecnología, Juegos, Software, Inteligencia Artificial y más

Las GPU NVIDIA impulsan el modelo Llama 3 de próxima generación de Meta

Capacitado en IA de NVIDIA

Portando Llama 3 a dispositivos y PC

Obtenga un rendimiento óptimo con Llama 3

Desarrollo de modelos comunitarios

Acerca de Sara

Artículos Relacionados

Ver también

Apple busca un socio para tecnologías de inteligencia artificial

Deja una respuesta Cancelar la respuesta

100 MW de energía solar se almacenarán con CO2 líquido

LG reducirá los costos de la batería en un 30% con tecnología de recubrimiento seco

Gracias al método innovador se logró el mayor acuerdo de energía geotérmica del mundo

Alemania compra a China las turbinas eólicas más grandes del mundo

China está estableciendo una base de energía renovable de 16 GW con una inversión de 11 mil millones de dólares

Hair Transplant Antalya

Aumentar FPS en Juegos con Lossless Scaling

¿Está tu iPhone en la lista? Discutiremos ‘Verificar la compatibilidad con iOS 18?

¿Cómo descargar e instalar iOS 18 beta?

¿Cómo instalar el modo FSR 3?

Las GPU NVIDIA impulsan el modelo Llama 3 de próxima generación de Meta

Capacitado en IA de NVIDIA

Portando Llama 3 a dispositivos y PC

Obtenga un rendimiento óptimo con Llama 3

Desarrollo de modelos comunitarios

Acerca de Sara

Artículos Relacionados

TSMC apunta a aumentar el rendimiento de los chips con sustratos rectangulares

El caso de la minería de criptomonedas de NVIDIA da un nuevo giro

Los costos de los centros de datos refrigerados por líquido de NVIDIA aumentan a medida que se dispara la demanda de IA

Ver también

Apple busca un socio para tecnologías de inteligencia artificial

Deja una respuesta Cancelar la respuesta