Vulnerabilidad Crítica en NVIDIA Container Toolkit y GPU Operator

NVIDIA ha publicado actualizaciones de seguridad para corregir vulnerabilidades críticas en NVIDIA Container Toolkit y GPU Operator. Estas fallas afectan entornos que utilizan GPU para cargas de trabajo en contenedores, especialmente en servicios de inteligencia artificial (IA) desplegados en la nube. Se recomienda aplicar los parches proporcionados por NVIDIA de forma inmediata para evitar la explotación de estas fallas.

Vulnerabilidades identificadas:

  • CVE-2025-23266 (CVSS 9.0 – Crítica): Una falla en los hooks del contenedor permite que un atacante ejecute código con privilegios elevados al abusar de la variable de entorno LD_PRELOAD. Puede llevar a la escalada de privilegios, divulgación de información, manipulación de datos y denegación de servicio.
  • CVE-2025-23267 (CVSS 8.5 – Alta): Un problema en el hook update-ldcache permite a un atacante provocar un enlace simbólico malicioso, resultando en manipulación de datos y denegación de servicio.

El exploit, apodado ‘NVIDIAScape‘, permite una fuga de contenedor extremadamente sencilla con un Dockerfile de tres líneas, dando control completo sobre el host. Esta vulnerabilidad representa un riesgo sistémico para la infraestructura de IA en la nube, especialmente en entornos multiusuario.

Productos y Versiones afectadas

ProductoPlataforma/SOVersiones afectadasVersión corregida
NVIDIA Container ToolkitTodosHasta 1.17.7 (CDI antes de 1.17.5)1.17.8
NVIDIA GPU OperatorLinuxHasta 25.3.0 (CDI antes de 25.3.0)25.3.1

Solución

Actualizar inmediatamente a las versiones corregidas del:

  • NVIDIA Container Toolkit (v1.17.8)
  • NVIDIA GPU Operator (v25.3.1)

Según las instrucciones oficiales en la documentación de instalación de NVIDIA.

Recomendaciones

  • Actualizar a las versiones corregidas indicadas.
  • Priorizar el parcheo de hosts que ejecutan contenedores de imágenes públicas o no confiables.
  • Implementar validaciones en tiempo de ejecución para detectar uso activo del toolkit vulnerable.
  • Deshabilitar el hook vulnerable si no es posible actualizar inmediatamente.
  • Auditar las configuraciones y el acceso a imágenes de contenedor.
  • Evitar depender de contenedores como único mecanismo de aislamiento; considerar virtualización como capa adicional.

Referencias