NVIDIA NeMo RL logra una aceleración del 48% con entrenamiento de precisión FP8 de extremo a extremo
Jessie A Ellis 20 abr 2026 23:41
La nueva receta FP8 de NVIDIA para aprendizaje por refuerzo ofrece un entrenamiento 48% más rápido mientras iguala la precisión de BF16, reduciendo significativamente los costos de infraestructura de IA.
NVIDIA ha lanzado una receta integral de precisión FP8 para aprendizaje por refuerzo que ofrece hasta un 48% más de rendimiento de entrenamiento mientras mantiene la paridad de precisión con los enfoques tradicionales de BF16, un desarrollo con implicaciones significativas para los costos de infraestructura de IA y la economía de computación GPU.
La técnica, detallada en una publicación de blog técnica de Guyue Huang de NVIDIA, aborda uno de los problemas más espinosos del entrenamiento RL: la discrepancia numérica entre las fases de generación y entrenamiento al usar diferentes niveles de precisión en motores separados.
El avance técnico
Los pipelines tradicionales de RL utilizan vLLM para rollouts y Megatron Core para entrenamiento, cada uno con kernels CUDA únicos que introducen diferencias numéricas acumulativas. Estas discrepancias se magnifican en niveles de precisión más bajos, limitando históricamente la adopción de FP8.
¿La solución de NVIDIA? Aplicar FP8 de manera consistente tanto en la generación como en el entrenamiento en lugar de mezclar niveles de precisión. Las pruebas en Llama 3.1 8B Instruct mostraron una precisión de validación de 0.613 con FP8 de extremo a extremo versus 0.616 para BF16, cerrando efectivamente la brecha. Mientras tanto, usar FP8 solo para generación redujo la precisión a 0.586.
La receta utiliza FP8 cuantizado por bloques (formato E4M3) con granularidad de 128x128 para pesos y 1x128 para activaciones. Las capas lineales ejecutan matemáticas FP8 con un rendimiento máximo teórico de 2x versus BF16, mientras que las funciones de atención, normalización y no lineales permanecen en BF16.
Ganancias de rendimiento en el mundo real
Solo para las capas lineales, la receta FP8 ofrece mejoras de rendimiento consistentes del 15-25%. La brecha entre la aceleración teórica de 2x y las ganancias reales proviene de que las capas de atención permanecen en BF16 más la sobrecarga del kernel de cuantización.
Extender FP8 al caché KV y las operaciones de atención impulsa la aceleración total a aproximadamente 48% sobre las líneas base de BF16. El inconveniente: los pesos de política de RL que se actualizan constantemente requieren recalibración dinámica de las escalas de cuantización después de cada paso de entrenamiento. El enfoque de NVIDIA agrega aproximadamente un 2-3% de sobrecarga para esta recalibración, un costo menor para una aceleración sustancial.
Las pruebas en Qwen3-30B (un modelo mixture-of-experts) mostraron curvas de precisión coincidentes entre las configuraciones de FP8 y BF16, lo que sugiere que la técnica escala entre arquitecturas.
Por qué esto es importante para la economía de la IA
El entrenamiento RL para modelos capaces de razonamiento como los que están detrás de asistentes de IA avanzados requiere una computación masiva. Una aceleración del 48% se traduce directamente en horas-GPU reducidas y facturas de electricidad más bajas para las organizaciones que entrenan estos sistemas.
La técnica de muestreo de importancia que permite la preservación de la precisión podría resultar igualmente valiosa. Al corregir desajustes de distribución entre los modelos de generación y entrenamiento por token, permite una reducción agresiva de la precisión sin sacrificar la calidad del modelo.
La implementación completa está disponible en la biblioteca de código abierto NeMo RL de NVIDIA, con recetas preconfiguradas para los modelos Llama 3.1 8B y Moonlight 16B. Los usuarios avanzados pueden ajustar el enfoque, manteniendo capas transformer específicas en BF16 o cambiando a factores de escala de potencia de 2 para optimización adicional.
Para los operadores de infraestructura de IA que observan cómo los costos de computación aumentan junto con la complejidad del modelo, esto representa una palanca de eficiencia significativa que no requiere actualizaciones de hardware, solo un uso más inteligente de las capacidades existentes de H100.
Fuente de la imagen: Shutterstock- nvidia
- entrenamiento de IA
- precisión fp8
- aprendizaje automático
- nemo rl








