Un informático en el lado del mal: ML

Mostrando entradas con la etiqueta ML. Mostrar todas las entradas

domingo, septiembre 07, 2025

Cómo acelerar los algoritmos de Inteligencia Artificial con Computadores Analógicos Ópticos (AOC)

Hace tiempo que tenemos en el mundo de la tecnología la llamada llegada Muerte de la Ley de Moore, porque los límites físicos están haciendo imposible crecer exponencialmente en una integración mayor con las tecnologías actuales. Eso hace que se estén trabajando desde hace mucho, mucho tiempo, en otras soluciones basadas en aproximaciones físicas totalmente diferentes, como son los ordenadores cuánticos o la computación fotónica. Mientras llegan nuevos ordenadores completos totalmente funcional, la industria busca solucionar el problema con Optimizadores Hardware que aceleren determinadas partes de los algoritmos que son costosas en tiempo, para lograr eficiencias en su ejecución.

Figura 1: Cómo acelerar los algoritmos de Inteligencia Artificial

con Computadores Analógicos Ópticos (AOC)

El uso de las GPUs es un claro ejemplo de un optimizador hecho a partir de un hardware dedicado, o los chips fotónicos de Lightmatter que utilizan tecnología fotónica para ciertas operaciones, lo que permite resolver algunos problemas mejor que los microprocesadores tradicionales. En el mundo de la tecnología Quantica hemos tenido ejemplos con intentos de optimización de la factorización RSA utilizado optimizadores Quantum Annealing, aunque no parece que el resultado fuera exitoso.

Figura 2: Analog Iterative Machine (AIM) - using light to solve

quadratic optimization problems with mixed variables

Los equipos de Microsoft Research Analog Optical Computer llevan años trabando con tecnología fotónica, pero no para comunicación cuántica o para sistemas de distribución de claves QKD usando propiedades cuánticas, sino para hacer optimización de cálculos en los algoritmos mediante el uso de computación óptica, jugando con la luz. El primer paper lo tenéis arriba, publicado en el año 2023, titulado: "Analog Iterative Machine (AIM): using light to solve quadratic optimization problems with mixed variables" y donde habla de su Analog Interactive Machine (AIM) para construir Analog Optimizer Computers (AOC).

Figura 3: Microsoft Research Analog Optical Computer

Todo este proceso de investigación, esa muy bien explicado en el vídeo que tenéis arriba, y podéis leeros los dos papers que han publicado, y visitar la web de Microsoft Research Analog Optical Computer, que es lo que he estado haciendo yo este fin de semana. En ellos explican el fundamento básico, que se apoya en haces de luz que se modulan en una matriz de puntos de intensidad para generar un conjunto matricial de puntos de colores, lo que significa que por cada punto de luz de la matriz resultante tenemos el impacto del haz de luz modulado (operado matemáticamente) por la matriz de moduladores, que puede ser capturado por un array de cámaras.

Figura 4: Multiplicación Óptica

Ésta es una operación óptica básica que permite multiplicar un vector por una matriz, que es una operación muy común que se utiliza en muchos algoritmos complejos. ¿Cuál es la ventaja? Pues que esta operación se hace a la velocidad de la luz, así que lo que los investigadores pensaron es ¿qué algoritmos se benefician de este tipo de optimización? Y ahí aparecieron los algoritmos QUMO.

"Los problemas "Quadratic Unconstrained Mixed Optimizations with all-to-all Connectivity" consisten en encontrar la configuración óptima de variables (enteras y binarias) que minimizan (o maximizan) una función cuadrática, donde no hay restricciones directas y todas las variables pueden interactuar entre sí" (fuente)

Este problema, que también se está abordando desde el prisma de uso de Optimizadores Quantum Anheling, es un problema donde existen muchas variables donde todas impactan en la optimización del problema. El problema típico es el de elegir la mejor inversión en la bolsa teniendo en cuenta que las variables cambian a lo largo del tiempo, y que todas las variables están relacionadas porque si se desinvierte en una se invierte en otra, y puede tener un impacto global en la solución.

Figura 5: Problema típico QUMO

En estos algoritmos el objetivo es maximizar el retorno y minimizar el riesgo, así que son dos variables que miden el riesgo y el beneficio, con una matriz de opciones de inversión, pero que van variando a lo largo del tiempo.

Figura 6: Solución con algoritmo Gradien-Descent

Este tipo de problemas, utilizando un algoritmo de solución llamado Gradient-Descent, porque se trata de elegir puntos de inversión inicial para llegar a una zona final óptima minimizando la energía, que en el ejemplo son los valores de riesgo y beneficio. Al final, exige una iteración a lo largo del tiempo de una multiplicación de vector por matrices, algo que se puede hacer on un Optimizador Analógico Óptico.

Figura 7: El AOC se conecta a un ordenador digital

Este proceso se hace a la velocidad de luz, y permite conectarse con un equipo normal, lo que haría que estas operaciones fueran muy rápido, acelerando la ejecución del algoritmo. Este trabajo lo han presentado en el artículo que ha sido publicado en la revista Nature este pasado 3 de Septiembre, titulado: "Analog optical computer for AI inference and combinatorial optimization".

Figura 8: Analog optical computer for AI inference and combinatorial optimization

En el artículo, no solo han hecho pruebas en simulador, sino que han probado diferentes algoritmos utilizados hoy en día basados en problemas QUMO, con uno de los últimos prototipos que han construido, y que tiene un aspecto aún lejos de estar en producción.

Figura 9: El AOC creado con cuatro módulos.

Los módulos marcados con los números 1, 2, 3 y 4 de este computador son los que en la imagen de la Figura 7 están descritos conceptualmente, y que en la imagen siguientes veis desmontados del equipo para verlos mejor.

Figura 10: Los elementos del AOC

Como véis, para hacer una multiplicación de un vector por una matriz necesitamos dos operaciones básicas, que son la multiplicación - realizada con el modulador de intensidad que da una pantalla de resultados en forma de colores, y la suma se realiza con la cámara, para llevar el resultado final a la electrónica que conecta con el computador digital habitual.

Figura 11: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

En el paper publicado en Nature, los investigadores han probado su algoritmo en cuatro algoritmos que encajan con necesidades QUMO en ciertas partes y hacen un uso intensivo de la multiplicación de vectores por matrices, como la reconstrucción de imagen médica, el problema de inversión financiera del que hemos hablando anteriormente, algoritmos de clasificación complejos utilizados en Machine Learning o los algoritmos de Regresión No Lineales que se usan en los modernos modelos de Inteligencia Artificial.

Figura 12: Problemas optimizados con el AOC

Los resultados, en todos los casos, mejoran los benchmarks anteriores, dando mejores soluciones, en menor tiempo, y mostrando un prometedor futuro para este tipo de Optimizadores Analógicos Ópticos, que ponen a la tecnología fotónica en un momento dulce.

Figura 13: Resultados optenidos

En los diferentes problemas, el uso de AOC ha conseguido resultados de mejor calidad, nuevas soluciones, mejoras de tiempo, y mejores resultados en los Benchmarks. Es el objetivo de los optimizadores, conseguir una mejora de una parte de un algoritmo para conseguir una mejora en el algoritmo completo.

Figura 14: Primeros AIM utilizados

Los primeros equipos que enseñó el equipo de Microsoft Research Analog Optical Computer han mejorado mucho su tamaño, pero aún están lejos de estar en producción, pero es un ejemplo claro de cómo la ciencia mejora nuestra tecnología, y esto seguro que no demasiado lejos en el tiempo veremos estas tecnologías en los datacentes en los que corremos nuestros modelos de IA - que, también nos sirven para optimizar nuestros algoritmos, como ya hemos visto como Alpha Evolve.-.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

domingo, agosto 24, 2025

Las ilusiones de las ilusiones que generan alucinaciones en los modelos visuales de inteligencia artificial

Las ilusiones visuales se producen cuando, para entender mejor nuestro alrededor, nuestros cerebros nos engañan manipulando el mundo que vemos. Es una confusión, o alucinación de nuestro cerebro, provocada por la re-interpretación de los estímulos visuales que hace nuestro cerebro. Líneas que parecen de diferente tamaño según cuál es la forma de los extremos, círculos que parecen más grandes o más pequeños en función de lo que les rodea, o dibujos que parecen cabezas de patos o conejos según se orienten. Es un mundo de ilusiones que llevamos años investigando como parte del camino de descubrimiento de cómo funciona nuestro órgano más desconocido - aún - "el cerebro".

Figura 1: Las ilusiones de las ilusiones que generan alucinaciones

en los modelos visuales de inteligencia artificial

En el mundo de la Inteligencia Artificial de los Modelos Visuales tienen que lidiar también con ellos, pero lo peculiar es que en ellos su cerebro no funciona como el nuestro. Clasificar imágenes es un proceso de clasificación, que bien podría ser un algoritmo de Machine Learning, sin una re-interpretación del mundo según se vea la imagen. Pero aún así, tienen que convivir con nuestra percepción del mundo.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Los modelos de IA no pueden ver nuestras Ilusiones, aunque ellos tengan Alucinaciones, pero deben saber que nosotros las vemos, por lo que deben reconocer que están ante una imagen de una Ilusión y a partir de ahí entender lo que le estamos preguntando, lo que queremos que razone, etcétera. Esto, genera una situación un tanto curiosa, como hemos visto en el artículo titulado: "The Illusion-Illusion: Vision Language Models See Illusions Where There are None" porque para reconocer nuestras ilusiones, su proceso de entrenamiento acaba llevándolos a ver ilusiones donde no las hay.

Figura 3: "The Illusion-Illusion: Vision Language Models

See Illusions Where There are None"

Al final, lo que sucede es que para reconocer que está ante una de nuestras ilusiones, se entrena el modelo con datos, y consigue reconocer la ilusión cuando la ve. Pero, la gracia está que, cuando se encuentra frente a una imagen que tiene similitud con la imagen de nuestra ilusión, la reconoce como si fuera la ilusión... y falla estrepitósamente.

Figura 4: La ilusión de la ilusión hace fallar al modelo visual

En el artículo del que os estoy hablando, los investigadores han generado imágenes que son ilusión de la ilusión o Ilusion-Ilusion en el paper, y ha probado cómo se comportan los diferentes modelos visuales de los principales MM-LLMs que tenemos hoy en día.

Figura 5: Ejemplos de Ilusion-Ilusion

Además de la probar la imagen de la Ilusion y de la Ilusion-Ilusion, han creado imágenes de Control que son justo la parte que deben evaluar para responder a la pregunta y detectar si es una ilusión o no. Es decir, dejando la parte clave de la imagen para eliminar el efecto de ilusión que provocan los elementos accesorios en nuestro cerebro.

Figura 6: Ilusión, Ilusión-Ilusión e imágenes de Control

Y ahora, con cada grupo de ilusiones, a probar cómo lo reconocen los principales Multi-Modal LLMs que tenemos hoy en día, donde los resultados son bastante curiosos. Primero con el Basic Prompt, que es la pregunta que se le haría a una persona para ver si cae o no en la ilusión. Son prompts donde no se le dice que hay una ilusión, y tiene que detectarla.

Figura 7: Grado de acierto en las respuestas de los modelos de IA

El grado de acierto con las imágenes de ilusiones es alto en GPT4, Claude3 y Gemini Pro, y más bajo en el resto, pero de igual forma estos mismos fallan mucho con las Ilusion-Ilusion donde cree que son ilusiones y no responden correctamente a la pregunta. Y con las imágenes de Control entre medias de ambos resultados.

Figura 8: Diciéndoles que la imagen es una ilusión

En la Figura 8 tenéis los resultados diciéndoles en el Prompt que es una ilusión, para encaminarles - correcta e incorrectamente - en cada petición. Cuando se dice que es una ilusión, aciertan mucho más en las que realmente son una ilusión, pero fallan mucho más aún en las Ilusion-Ilusion y en las Imágenes de Control, con lo que su grado de acierto es bastante pequeño.

Figura 9: Fallos llamativos con Imágenes de Control

En la última imagen, tenéis fallos llamativos usando el Basic Prompt con las imágenes de Control en Gemini Pro, GPT-4o y Claude 3, donde queda claro que las imágenes de entrenamiento ha hecho que les lleve a tener este tipo de "Alucinaciones" inesperadas. Al final tiene que ver con el Potemkin Rate, porque parece que reconoce bien y no cae en las alucinaciones, pero es justo al contrario y cae en Hallucinations por culpa del entrenamiento para reconocer Illusions.

Figura 10: Ejemplo de pegatinas sobre una señal de STOP,
que a diferentes distancias y ángulos, hacía leer
a un Tesla las palabras Love y Hate y no STOP.

¿Se podría sacar uso a esto de forma maliciosa? Pues no sé, pero tomar decisiones en un sistema de navegación con Modelos Visuales de IA como los que tenemos en Automóviles, Drones o Aviones, puede ser un verdadero problema de seguridad física. Ya vimos cómo se podía hackear un Tesla con Pegatinas en la DefCon de hace años, y esta debilidad seguro que tiene aplicaciones "prácticas".

Figura 11: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

martes, agosto 19, 2025

Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad

No es la primera vez que el debate del Reconocimiento Facial ocupa parte de este espacio. En el año 2023, en el artículo titulado "Detecciones policiales erróneas por "falsos positivos" en Reconocimiento Facial" se contaba la historia de cómo una mujer fue detenida y llevada a juicio por un reconocimiento facial a partir de imágenes de una cámara de seguridad, donde se olvidaron el detalle de que en ese momento, la mujer detenida estaba embarazada de 8 meses. Algo que no detectó el algoritmo de reconocimiento facial pero que era muy fácil de comprobar en su momento.

Figura 1: Sobre la Fiabilidad del Reconocimiento Facial

en Imágenes de Cámaras de Seguridad

Estos sesgos, fallos y alucinaciones en forma de Falsos Positivos (FP) y Falsos Negativos (FN), los hemos visto muchas veces en los algoritmos de reconocimiento facial. Usando clasificadores basados en técnicas de Machine Learning, vimos cómo un algoritmo podría fallar si las condiciones de calidad de la imagen no eran idóneas, como os publiqué en el artículo de "Cómo un algoritmo de Machine Learning puede tener prejuicios o sesgos y afectar a la vida de las personas. Un ejemplo con un algoritmo al que le gusta la piel clara" escrito por Alberto Rivera y Marcos Rivera.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

En los modernos Cognitive Services de Reconocimiento Facial, yo he puesto muchas veces el ejemplo de "hallucination" cuando me confundían en fotos a mí con el actor George Clooney, algo que creo que salta a la vista que no debería pasar de ninguna manera, y que sin embargo ha sucedido en más de una ocasión. Si sabemos que hay Sesgos, Falsos Positivos, Falsos Negativos o Hallucinations... ¿Podemos fiarnos de la Tecnología de Reconocimiento Facial (Facial Recognition Technology - FRT) ? Cuando la utilizamos con imágenes de cámaras de seguridad de baja calidad o en condiciones que no son las ideales... ¿son realmente fiables estas tecnologías?

Figura 3: Accuracy and Fairness of Facial Recognition Technology

in Low-Quality Police Images: An Experiment With Synthetic Faces

De esto va el paper que se ha publicado en Junio de este año, titulado "Accuracy and Fairness of Facial Recognition Technology in Low-Quality Police Images: An Experiment With Synthetic Faces" donde se ha hecho un experimento con 50.000 imágenes sintéticas para localizar los Ratios de Falsos Positivos y Falsos Negativos de algunas de las tecnologías de FRT utilizadas en investigaciones policiales.

Figura 4: Imágenes utilizadas en investigaciones policiales

Si miramos las imágenes con las que cuentan las FRTs para reconocer a las individuos, no son siempre ni a la mejor resolución, ni con la mejor calidad, ni con el mejor ángulo de enfoque, con lo que tienen una dura misión para detectar un Match de Reconocimiento facial que no sea más allá que "un indicio" leve para investigar después, pero parece imposible que se pueda utilizar como una prueba concluyente.

Figura 5: Proceso de prueba de las FRTs

Para localizar estos Ratios de Falsos Positivos (FPR) y de Falsos Negativos (FNR), se ha hecho un experimento en el artículo generando 50.000 imágenes sintéticas utilizando un modelo de StyleGAN3. Estas imágenes se han catalogado después en función de sexo y raza para conseguir una dispersión mayor y probarla con diferentes tipos de personas.

Figura 6: Humanos Sintéticos creados con StyleGAN3

La distribución de estas personas, en función de sexo y raza es más o menos homogénea en sexo, pero en raza se ha hecho una distribución sesgada entre raza blanca, negra y asiática, para probarlo en un entrono similar al que puede tener un país como los Estados Unidos.

Figura 7: Distribución de los Humanos Sintéticos generados

Ahora, lo siguiente que se ha hecho ha sido manipular esas imágenes para ponerlas en condiciones similares a las que se tienen las cámaras de seguridad y muchas de las investigaciones policiales, haciendo distorsiones de resolución, brillo, contraste, color, etcétera, y probar en condiciones NO ideales, que es a lo que se tienen que enfrentar las FRT de los cuerpos de seguridad que investigan los delitos.

Figura 8: Degradación de calidad de las imágenes para hacer FR

Ahora, una vez que se tienen las imágenes generadas, se corren los procesos con las FRT para calcular el número de Falsos Positivos (FP), el Total de Positivos (TP), el número de Falsos Negativos (FN), Total de Negativos (TN), el Ratio de Falsos Positivos (FPR) y el Ratio de Falsos Negativos (FNR) todos ellos normalizados con el porcentaje de del sexo y raza de la población, para hacer una estimación más fiable de estos valores. Todos estos valores se miden haciendo búsquedas con objetivos en la base de datos, y con objetivos que no están en la base de datos - y que deberían no dar ninguna coincidencia -.

Figura 9: Algoritmos de medición de fiabilidad de FRTs

Y los resultados, como podríais imaginar son que tenemos un número significativo de Falsos Positivos, de Falsos Negativos, con sesgos más marcados por sexo y raza. En la siguiente tabla tenemos los Ratios de Falsos Positivos y Ratio de Falsos Negativos en función de la degradación de calidad de la imagen de búsqueda.

Figura 10: Ratio de Falsos Positivos y Ratio de Falsos Negativos

en función de calidad de las imágenes de búsqueda.

Pero, si lo miramos por tipo de degradación de la imagen, y por raza y género, vemos que los FPR y FNR son sensiblemente diferentes. Por ejemplo, hay más Falsos Negativos con imágenes de mujeres blancas con mala calidad de contraste que mujeres negras, pero hay más Falsos Positivos en mujeres negras que en mujeres blancas.

Figura 11: FPR y FNR por sexo y raza

Pero es que si miramos cualquiera de las degradaciones de calidad, vemos que las FRT tienen diferentes FNR y FPR por raza y sexo, lo que hace que sea más propenso a dar un Falso Positivo o un Falso Negativo si tu raza es una u otra. Lo que hace que haya que poner estas tecnologías como indicios en las investigaciones policiales, pero nunca como prueba definitiva.

Figura 12: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Este tipo de investigaciones hacen que corrijamos errores que podemos cometer con la tecnología y que pueden afectar de manera muy seria a la vida de las personas. Por todo ello, si eres de los que te dedicas a hacer informes periciales o análisis forenses, conocer estos datos son fundamentales para ajustar tus conclusiones en su justa medida. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligen

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

viernes, junio 27, 2025

"Put your ETA where your mouth is"

Hay una frase muy típica en el mundo de los programadores que utilizamos siempre en nuestros hackathones que es "Pon tu código donde pones tu boca" (Put your code where your mouth is") o lo que es lo mismo, enséñame tu código y no me digas lo bueno que eres. Así, en las presentaciones de los proyectos no se permitían presentaciones en PPT, y solo demos con código. Una buena forma de incentivar el delivery.

Figura 1: "Put your ETA where your mouth is"

Y basándome en esa idea estaba hablado con un compañero sobre conducir, que es algo que yo no suelo disfrutar demasiado, y el mundo de las rutas. La pregunta era si las ETA (Estimated Time of Arrival) en los GPS tipo Google Maps o Waze, que lo hacen siempre basado en tu forma de conducir, lo hacen a sabiendas de que te están dando un ETA por encima de los límites de velocidad en las carreteras que tienes que cubrir.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Es decir, si tu ETA dice que vas a llegar a una determinada hora, pero saltándose todos los límites de velocidad en las carreteras por las que tienes que pasar. Sí, esas son nuestras conversaciones habitualmente. Por supuesto que se hace uso de Machine Learning con tu historial de datos además de datos de tráfico en tiempo real, pero que pasa si el que conduce es el Señor Lobo de Pulp Fiction, que acuñó esta famosa frase:

- "It´s 30 mins away. I'll be there in 10. I drive real fast".

La pregunta, ¿le mostrará el Waze al Señor Lobo 30 minutos de ETA o le enseñará 10 minutos de ETA?. Mi argumento es que puede que 10 sea lo más "accurate" en la realidad de ese usuario, pero mostrarle 10 minutos en el ETA es casi como gamificar la ruta y hacer como en los simuladores una carrera contra tu "ghost", lo que incentivaría una competición por batir el ETA (algo muy común en los conductores gamers), cometiendo infracciones de tráfico y poniendo en peligro a los demás.

La competición con el Señor Lobo

No tengo toda la información, pero hicimos una prueba muy sencilla mi querido contertulio de la charla. Sentados juntos tomando un escocés sacamos nuestro Waze y los dos pusimos la misma ruta. Y está claro que su afirmación de que él conduce muy rápido y que yo conduzco como una tortuga tiene su representación directa en los ETA.

Figura 3: El ETA de la ruta para mí: 1h y 59mina

En el de arriba se puede ver que a mi compañero le ha mostrado un ETA que es 9 minutos inferior al mío. Para que quedara clara la dirección pusimos una ruta larga, para que la diferencia de velocidad se notara claramente.

Figura 4: Ruta del Señor Lobo. Misma distancia.

Mismos peligros. Misma ruta. Misma hora.

9 minutos menos que la mía.

Por supuesto, como prueba curiosa podéis hacerla con amigos, pareja, compañeros de piso, compañeros de conducción, etcétera. Que te enseñen su ETA antes de subirte a un coche con un mal conductor, o que cuando alguien diga que conduce rápido, que ponga su ETA donde pone su boca. Y luego, por supuesto, queda la duda y el debate de si es bueno que pongan ETAs superiores a los límites de velocidad o si deberían limitarlos para incentivar una conducción correcta. ¿Opiniones?

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

martes, abril 15, 2025

Cómo servir modelos de ML e IA (LLMs) en Kubernetes con KServe: Autoscaling Inteligente y Eficiencia en GPU

La Inteligencia Artificial no se detiene, y su adopción en producción tampoco, pero hay una brecha silenciosa entre entrenar un modelo y servirlo de forma eficiente, escalable y mantenible. Aquí es donde Kubernetes se convierte en el aliado perfecto, y donde herramientas como KServe (el sucesor de KFServing) brillan.

Figura 1: Cómo servir modelos de ML e IA (LLMs) en Kubernetes con KServe.

Autoscaling Inteligente y Eficiencia en GPU

En este artículo te cuento cómo puedes montar una plataforma moderna para servir modelos de IA y LLMs sobre Kubernetes, aprovechar las novedades más recientes de KServe, y hacer que tu infraestructura escale según uso real y consumo de GPU.

Figura 2: Arquitectura de KServe

Spoiler: sí, se puede tener eficiencia, velocidad y buena arquitectura al mismo tiempo.

¿Por qué servir modelos sobre Kubernetes?

Entrenar un modelo es sólo la mitad del camino. Lo difícil viene después: ponerlo a funcionar en producción de forma fiable, segura y escalable.

Alta disponibilidad
Autoescalado según carga real
Seguridad, versionado, observabilidad
Integración con pipelines CI/CD y orquestadores como Argo Workflows o Kubeflow

Kubernetes permite todo esto. Pero no hay que reinventar la rueda, y ahí entra KServe.

Antes de continuar… ¿Qué es Kubeflow y qué ofrece?

Kubeflow es una plataforma Open Source pensada para desplegar, escalar y gestionar flujos de trabajo de Machine Learning (ML) sobre Kubernetes. Su objetivo principal es llevar el desarrollo de modelos de ML a producción de forma reproducible, escalable y portátil.

Figura 3: Componentes de Kubeflow

Kubeflow no es una herramienta única, sino un conjunto de componentes modulares que cubren distintas etapas del ciclo de vida del modelo de Machine Learning:

Kubeflow Pipelines: Orquestación de pipelines de ML (entrenamiento, preprocesado, validación, etcétera).

Katib: AutoML y búsqueda de hiperparámetros.

KServe (antes KFServing): Serving de modelos con escalado automático y despliegues sin downtime.

Notebook Servers: Entornos Jupyter en Kubernetes, listos para trabajar con datos y modelos.

Central Dashboard y Profiles: Gestión multiusuario, RBAC, y control de recursos por equipo o proyecto.

Kubeflow se posiciona como una plataforma completa para MLops sobre Kubernetes, especialmente útil cuando necesitas estandarizar y automatizar todo el flujo de trabajo desde el desarrollo hasta el despliegue.

Figura 4: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Aunque KServe puede funcionar por separado de Kubeflow, se integra perfectamente como pieza de serving dentro del stack Kubeflow.

KServe: servir modelos como si fueran microservicios

KServe es un componente de Kubeflow, pero puede usarse de forma independiente. Te permite desplegar modelos como recursos de Kubernetes (CRDs), exponiéndose vía REST o gRPC, con soporte para, entre otros, PyTorch, TensorFlow, XGBoost, SKLearn, ONNX etc... e incluso tus propios contenedores.

Lo bueno: cada modelo es un InferenceService, y tú defines lo que necesita: CPU, GPU, versiones, etcétera.

Lo brutal: KServe soporta escalado automático hasta cero réplicas, y las vuelve a levantar cuando hay tráfico. Nada de infra desperdiciada.

GPU autoscaling

Puedes escalar vertical y horizontalmente tus modelos en GPU.
Mediante Prometheus Adapter + HPA Custom Metrics, se puede escalar según uso de memoria GPU, uso de batch o incluso peticiones por segundo.

Raw Deployment mode

1.- KServe por defecto usa Knative para autoescalar.

Escala basándose en tráfico HTTP (requests por segundo).

Esto no es suficiente cuando usas GPUs, ya que estas no se liberan con tráfico bajo.

Además, los workloads con GPU suelen tener procesamiento batch o tiempos largos de inferencia, donde Knative no escala de forma óptima.

2.- Para modelos en GPU, muchas veces no se usa Knative, sino raw deployment mode en KServe, para tener más control.

Aquí ya no dependes de Knative, sino de un Deployment + HPA.

Figura 5: Arquitectura para servir modelos

3.- Prometheus Adapter + HPA con métricas personalizadas

Prometheus Adapter permite exponer métricas personalizadas (por ejemplo: uso de memoria GPU, utilización del device, número de peticiones, etc.) como Custom Metrics API.

Con eso puedes configurar un HPA (Horizontal Pod Autoscaler) para escalar los pods de inferencia según esas métricas.

Esto se usa en entornos donde se necesita un autoscaling más inteligente y específico, especialmente con GPU.

Scale down a cero

¿Qué significa “scale down a cero” en KServe?

Es la capacidad de escalar a cero réplicas un modelo cuando no está recibiendo peticiones, y volver a levantarlo automáticamente (auto-scale up) cuando llega una nueva petición.

¿Qué beneficios tiene esta solución?

Ahorro de costes brutal: Si tienes muchos modelos desplegados pero no todos se usan constantemente, con scale-to-zero no malgastas CPU ni RAM. Ideal en entornos cloud donde pagas por uso de recursos, como en clusters gestionados (EKS, GKE, AKS…).

Optimización de recursos en el cluster: En vez de mantener todos los pods activos, los que no reciben tráfico se eliminan temporalmente, dejando espacio a otros workloads que sí lo necesitan. Ayuda a evitar sobrecargas y reduce la necesidad de sobredimensionar el cluster.

Despliegue eficiente de muchos modelos: Puedes permitir que muchos equipos o usuarios publiquen sus propios modelos sin saturar el sistema. Esto habilita patrones como “multi-tenancy” eficiente para inferencias bajo demanda.

Escalado bajo demanda: Si un modelo recibe tráfico repentino, KServe lo activa rápidamente. Esto es perfecto para modelos que solo se usan de vez en cuando o que funcionan como microservicios ML reactivos.

Canary rollout

KServe soporta dividir tráfico entre versiones de modelo (v1, v2, etcétera). Por ejemplo puedes hacer un 90/10, observar métricas y logs, y luego promover o descartar la nueva versión. Pero… ¿qué es Canary rollout?

Figura 6: Canary Rollout

El Canary rollout te permite probar una nueva versión de un modelo (por ejemplo v2) con una pequeña parte del tráfico real, mientras que la versión estable (v1) sigue sirviendo la mayoría del tráfico. Esto es clave para:

Validar rendimiento y exactitud del modelo en producción.
Detectar errores o regresiones antes de hacer el cambio completo.
Observar métricas y logs reales sin impactar a todos los usuarios.

Ejemplo de Canary rollout en KServe

apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
 name: sklearn-iris
 namespace: kserve-test
spec:
 predictor:
   model:
     modelFormat:
       name: sklearn
     storageUri: "gs://kfserving-examples/models/sklearn/1.0/model-1"
   canaryTrafficPercent: 10
   canary:
     model:
       modelFormat:
         name: sklearn
       storageUri: "gs://kfserving-examples/models/sklearn/1.0/model-2"

storageUri: del bloque principal. Apunta a model-1, la versión actual y estable del modelo.
canary: Define model-2 como la nueva versión que se quiere probar.
canaryTrafficPercent: 10: indica que el 10% del tráfico entrante será dirigido a model-2, mientras que el 90% restante seguirá siendo servido por model-1.

Novedades destacadas

Desde la versión v0.15.0, KServe ha incorporado mejoras significativas para el despliegue de modelos de lenguaje (LLMs), incluyendo soporte distribuido con vLLM, mejoras en el runtime de Hugging Face y optimizaciones para almacenamiento y readiness. Esto abre la puerta a escenarios como:

Servir un modelo LLaMA o Falcon en múltiples nodos GPU.

Integrar modelos de Hugging Face con pipelines existentes y autoscaling por demanda.

Aprovechar técnicas avanzadas como RAG o agentes con herramientas directamente desde Kubernetes.

Si antes KServe era ideal para modelos tradicionales de Machine Learning, ahora también lo es para los modelos de última generación.

Algunas otras funcionalidades adicionales:

Soporte para descarga de archivos individuales desde GCS Google Cloud Storage), lo que mejora los tiempos de inicio.

Readiness probes más precisas, especialmente para modelos en transformers, mejorando la confiabilidad de despliegues en producción.

Introducción de “KServe Guru” en Gurubase.io, un espacio para encontrar y compartir soluciones de la comunidad.

Arquitectura tipo: Cómo lo montamos

Una plataforma de inferencia moderna sobre Kubernetes podría verse así:

KServe + Istio: para gestión de modelos como microservicios.

Knative Serving: para escalado a 0, cold start optimizado.

Prometheus + Grafana: para métricas personalizadas de GPU o latencia.

Cert-Manager + Ingress Gateway: TLS automático para exposición segura.

ArgoCD o Flux: GitOps para definir modelos como código.

GPU Operator de NVIDIA: para gestionar drivers y nodos GPU

¿Y si no quieres montar todo esto desde cero?

Aunque herramientas como KServe y Kubeflow son muy potentes, su configuración desde cero puede requerir tiempo, conocimientos avanzados de Kubernetes y una buena integración con infraestructura cloud o on-prem. Aquí es donde entran plataformas como Axebow.io, que están diseñadas para facilitar el despliegue de aplicaciones, entornos de Machine Learning e IA y plataformas completas sobre Kubernetes. Esto permite que equipos de IA y Data Science se enfoquen en desarrollar y servir modelos sin preocuparse por los detalles de infraestructura.

Figura 7: Puedes probar Axebow sin coste

Axebow.io proporciona configuraciones optimizadas para rendimiento, autoscaling con GPU y despliegues reproducibles, lo que reduce la complejidad operativa y acelera el time-to-production. Si estás interesado en saber más, contacta con nosotros.

Autores: Miguel Angel Chuecos / Carlos García Blanco, CEO de Kumori

Contactar con Carlos García Blanco

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

domingo, septiembre 07, 2025

Cómo acelerar los algoritmos de Inteligencia Artificial con Computadores Analógicos Ópticos (AOC)

domingo, agosto 24, 2025

Las ilusiones de las ilusiones que generan alucinaciones en los modelos visuales de inteligencia artificial

martes, agosto 19, 2025

Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad

viernes, junio 27, 2025

"Put your ETA where your mouth is"

martes, abril 15, 2025

Cómo servir modelos de ML e IA (LLMs) en Kubernetes con KServe: Autoscaling Inteligente y Eficiencia en GPU

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Buscar artículo

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Agradecimientos en Tempos

Libro Pentesting con FOCA

Etiquetas

ChemaBot

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

domingo, septiembre 07, 2025

Cómo acelerar los algoritmos de Inteligencia Artificial con Computadores Analógicos Ópticos (AOC)

domingo, agosto 24, 2025

Las ilusiones de las ilusiones que generan alucinaciones en los modelos visuales de inteligencia artificial

martes, agosto 19, 2025

Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad

viernes, junio 27, 2025

"Put your ETA where your mouth is"

martes, abril 15, 2025

Cómo servir modelos de ML e IA (LLMs) en Kubernetes con KServe: Autoscaling Inteligente y Eficiencia en GPU

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Buscar artículo

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Agradecimientos en Tempos

Libro Pentesting con FOCA

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection