NVIDIA acelera la inferencia en Meta Llama 3

Share

NVIDIA anuncia optimizaciones en todas sus plataformas para acelerar Meta Llama 3, la última generación del modelo de lenguaje (LLM). El modelo abierto combinado con la computación acelerada por NVIDIA equipa a desarrolladores, investigadores y empresas para innovar de forma responsable en una amplia variedad de aplicaciones.

Los ingenieros de Meta entrenaron Llama 3 en clusters de computación con 24.576 GPUs NVIDIA H100 Tensor Core, conectadas con redes RoCE y NVIDIA Quantum-2 InfiniBand. Con el apoyo de NVIDIA, Meta ha perfeccionado sus arquitecturas de red, software y modelos para su vanguardista LLM.

Para seguir avanzando en el estado del arte de la IA generativa, Meta ha descrito recientemente sus planes de ampliar su infraestructura a 350.000 GPU H100.

Puesta en funcionamiento de Llama 3

Las versiones de Llama 3, aceleradas en las GPU NVIDIA, están disponibles para su uso en la nube, el centro de datos, el perímetro y el PC. Desde un navegador, los desarrolladores pueden probar Llama 3 en ai. nvidia. Está empaquetado como un microservicio NVIDIA NIM con una interfaz de programación de aplicaciones estándar que puede implantarse en cualquier lugar.

Las empresas pueden ajustar Llama 3 con sus datos utilizando NVIDIA NeMo, un marco de código abierto para LLM que forma parte de la plataforma segura y compatible NVIDIA AI Enterprise. Los modelos personalizados pueden optimizarse para la inferencia con TensorRT-LLM de NVIDIA e implantarse con el servidor de inferencia Triton de NVIDIA.

Llevando Llama 3 a dispositivos y PCs

Llama 3 también se ejecuta en NVIDIA Jetson Orin para dispositivos de robótica y edge computing, lo que permite crear agentes interactivos como los del Jetson AI Lab.

Además, las GPU NVIDIA RTX y GeForce RTX para estaciones de trabajo y PC aceleran la inferencia en Llama 3. Estos sistemas ofrecen a los desarrolladores un objetivo de más de 100 millones de sistemas acelerados por NVIDIA en todo el mundo.

NVIDIA, que contribuye activamente al código abierto, está comprometida con la optimización del software comunitario que ayuda a los usuarios a afrontar sus retos más difíciles. Los modelos de código abierto también promueven la transparencia en la IA y permiten a los usuarios compartir ampliamente el trabajo sobre seguridad y resiliencia de la IA.

Obtenga más información sobre la plataforma de inferencia de IA de NVIDIA, incluida la forma en que NIM, TensorRT-LLM y Triton utilizan técnicas de vanguardia como la adaptación de bajo rango para acelerar los últimos LLM.

«Estamos encantados de ofrecer más de esta tecnología de IA de NVIDIA para impulsar la innovación. Con Meta Llama 3 optimizada para nuestras GPU, estamos permitiendo a desarrolladores y empresas explorar todo el potencial de la inteligencia artificial en una gran variedad de aplicaciones, desde la nube hasta los dispositivos de borde», afirma Marcio Aguiar, director de la división Enterprise de NVIDIA para Latinoamérica.