NVIDIA anunció que los LLM Llama 3 de Meta están construidos con GPU NVIDIA y optimizados para ejecutarse en todas las plataformas, desde servidores hasta PC.
Los LLM de IA Llama 3 de próxima generación de Meta ya están aquí y el poder detrás de NVIDIA
NVIDIA anunció hoy optimizaciones en todas sus plataformas para acelerar Meta Llama 3, la última generación de su modelo de lenguaje grande (LLM). El modelo abierto combinado con la computación acelerada de NVIDIA equipa a desarrolladores, investigadores y empresas para innovar de manera responsable en una amplia gama de aplicaciones.
Capacitado en IA de NVIDIA
Los metaingenieros entrenaron a Llama 3 en un clúster de PC que contenía 24.576 GPU H100 Tensor Core conectadas a una red Quantum-2 InfiniBand. Con el apoyo de NVIDIA, Meta ajustó sus arquitecturas de red, software y modelos para su LLM insignia.
Para avanzar aún más en la vanguardia de la IA generativa, Meta anunció recientemente planes para actualizar su infraestructura a 350.000 GPU H100.
Poniendo a Llama 3 a trabajar
Las versiones aceleradas de Llama 3 en GPU NVIDIA están disponibles hoy para su uso en la nube, el centro de datos y la PC.
Las GPU NVIDIA impulsan el modelo Llama 3 de próxima generación de Meta, IA optimizada en todas las plataformas, incluido RTX 2
Las empresas pueden ajustar Llama 3 con sus datos utilizando NVIDIA NeMo, un marco de código abierto para LLM que forma parte de la plataforma segura y compatible con NVIDIA AI Enterprise. Los modelos personalizados se pueden optimizar para la salida con NVIDIA TensorRT-LLM e implementar con Triton Inference Server.
Portando Llama 3 a dispositivos y PC
Llama 3 también se ejecuta en Jetson Orin para robótica y dispositivos informáticos de vanguardia, creando agentes interactivos como los del Jetson AI Lab. Además, las GPU RTX y GeForce RTX para estaciones de trabajo y PC aceleran la inferencia en Llama 3. Estos sistemas ofrecen a los desarrolladores el objetivo de tener más de 100 millones de sistemas acelerados por NVIDIA en todo el mundo.
Obtenga un rendimiento óptimo con Llama 3
La mejor práctica al usar LLM para un chatbot implica un equilibrio entre baja latencia, buena velocidad de lectura y utilización óptima de la GPU para reducir costos. Un servicio de este tipo necesitaría entregar tokens, el equivalente aproximado de palabras a un LLM, a una velocidad de aproximadamente 10 tokens/segundo, que es aproximadamente el doble de la velocidad de lectura de un usuario.
Aplicando estos puntos de referencia, una sola GPU NVIDIA H200 Tensor Core produjo aproximadamente 3000 tokens por segundo (suficiente para atender aproximadamente a 300 usuarios simultáneos) en la primera prueba utilizando la versión Llama 3 con 70 mil millones de parámetros. Esto significa que un único servidor NVIDIA HGX con ocho GPU H200 puede entregar 24 000 tokens por segundo y admitir más de 2400 usuarios simultáneos, optimizando aún más los costos.
Para los dispositivos de borde, la versión de ocho mil millones de parámetros de Llama 3 produjo hasta 40 monedas/segundo en el Jetson AGX Orin y 15 monedas/segundo en el Jetson Orin Nano.
Desarrollo de modelos comunitarios
Como participante activo de código abierto, NVIDIA se compromete a optimizar el software comunitario que ayuda a los usuarios a resolver sus problemas más difíciles. Los modelos de código abierto promueven la transparencia de la IA y permiten a los usuarios compartir ampliamente su trabajo sobre la seguridad y la resiliencia de la IA.