Hace tiempo que tenemos en el mundo de la tecnología la llamada llegada Muerte de la Ley de Moore, porque los límites físicos están haciendo imposible crecer exponencialmente en una integración mayor con las tecnologías actuales. Eso hace que se estén trabajando desde hace mucho, mucho tiempo, en otras soluciones basadas en aproximaciones físicas totalmente diferentes, como son los ordenadores cuánticos o la computación fotónica. Mientras llegan nuevos ordenadores completos totalmente funcional, la industria busca solucionar el problema con Optimizadores Hardware que aceleren determinadas partes de los algoritmos que son costosas en tiempo, para lograr eficiencias en su ejecución.
Todo este proceso de investigación, esa muy bien explicado en el vídeo que tenéis arriba, y podéis leeros los dos papers que han publicado, y visitar la web de Microsoft Research Analog Optical Computer, que es lo que he estado haciendo yo este fin de semana. En ellos explican el fundamento básico, que se apoya en haces de luz que se modulan en una matriz de puntos de intensidad para generar un conjunto matricial de puntos de colores, lo que significa que por cada punto de luz de la matriz resultante tenemos el impacto del haz de luz modulado (operado matemáticamente) por la matriz de moduladores, que puede ser capturado por un array de cámaras.
Ésta es una operación óptica básica que permite multiplicar un vector por una matriz, que es una operación muy común que se utiliza en muchos algoritmos complejos. ¿Cuál es la ventaja? Pues que esta operación se hace a la velocidad de la luz, así que lo que los investigadores pensaron es ¿qué algoritmos se benefician de este tipo de optimización? Y ahí aparecieron los algoritmos QUMO.
"Los problemas "Quadratic Unconstrained Mixed Optimizations with all-to-all Connectivity" consisten en encontrar la configuración óptima de variables (enteras y binarias) que minimizan (o maximizan) una función cuadrática, donde no hay restricciones directas y todas las variables pueden interactuar entre sí" (fuente)
Este problema, que también se está abordando desde el prisma de uso de Optimizadores Quantum Anheling, es un problema donde existen muchas variables donde todas impactan en la optimización del problema. El problema típico es el de elegir la mejor inversión en la bolsa teniendo en cuenta que las variables cambian a lo largo del tiempo, y que todas las variables están relacionadas porque si se desinvierte en una se invierte en otra, y puede tener un impacto global en la solución.
En estos algoritmos el objetivo es maximizar el retorno y minimizar el riesgo, así que son dos variables que miden el riesgo y el beneficio, con una matriz de opciones de inversión, pero que van variando a lo largo del tiempo.
Este tipo de problemas, utilizando un algoritmo de solución llamado Gradient-Descent, porque se trata de elegir puntos de inversión inicial para llegar a una zona final óptima minimizando la energía, que en el ejemplo son los valores de riesgo y beneficio. Al final, exige una iteración a lo largo del tiempo de una multiplicación de vector por matrices, algo que se puede hacer on un Optimizador Analógico Óptico.
Este proceso se hace a la velocidad de luz, y permite conectarse con un equipo normal, lo que haría que estas operaciones fueran muy rápido, acelerando la ejecución del algoritmo. Este trabajo lo han presentado en el artículo que ha sido publicado en la revista Nature este pasado 3 de Septiembre, titulado: "Analog optical computer for AI inference and combinatorial optimization".
En el artículo, no solo han hecho pruebas en simulador, sino que han probado diferentes algoritmos utilizados hoy en día basados en problemas QUMO, con uno de los últimos prototipos que han construido, y que tiene un aspecto aún lejos de estar en producción.
Los módulos marcados con los números 1, 2, 3 y 4 de este computador son los que en la imagen de la Figura 7 están descritos conceptualmente, y que en la imagen siguientes veis desmontados del equipo para verlos mejor.
Como véis, para hacer una multiplicación de un vector por una matriz necesitamos dos operaciones básicas, que son la multiplicación - realizada con el modulador de intensidad que da una pantalla de resultados en forma de colores, y la suma se realiza con la cámara, para llevar el resultado final a la electrónica que conecta con el computador digital habitual.
En el paper publicado en Nature, los investigadores han probado su algoritmo en cuatro algoritmos que encajan con necesidades QUMO en ciertas partes y hacen un uso intensivo de la multiplicación de vectores por matrices, como la reconstrucción de imagen médica, el problema de inversión financiera del que hemos hablando anteriormente, algoritmos de clasificación complejos utilizados en Machine Learning o los algoritmos de Regresión No Lineales que se usan en los modernos modelos de Inteligencia Artificial.
Los resultados, en todos los casos, mejoran los benchmarks anteriores, dando mejores soluciones, en menor tiempo, y mostrando un prometedor futuro para este tipo de Optimizadores Analógicos Ópticos, que ponen a la tecnología fotónica en un momento dulce.
En los diferentes problemas, el uso de AOC ha conseguido resultados de mejor calidad, nuevas soluciones, mejoras de tiempo, y mejores resultados en los Benchmarks. Es el objetivo de los optimizadores, conseguir una mejora de una parte de un algoritmo para conseguir una mejora en el algoritmo completo.
Los primeros equipos que enseñó el equipo de Microsoft Research Analog Optical Computer han mejorado mucho su tamaño, pero aún están lejos de estar en producción, pero es un ejemplo claro de cómo la ciencia mejora nuestra tecnología, y esto seguro que no demasiado lejos en el tiempo veremos estas tecnologías en los datacentes en los que corremos nuestros modelos de IA - que, también nos sirven para optimizar nuestros algoritmos, como ya hemos visto como Alpha Evolve.-.
Las ilusiones visuales se producen cuando, para entender mejor nuestro alrededor, nuestros cerebros nos engañan manipulando el mundo que vemos. Es una confusión, o alucinación de nuestro cerebro, provocada por la re-interpretación de los estímulos visuales que hace nuestro cerebro. Líneas que parecen de diferente tamaño según cuál es la forma de los extremos, círculos que parecen más grandes o más pequeños en función de lo que les rodea, o dibujos que parecen cabezas de patos o conejos según se orienten. Es un mundo de ilusiones que llevamos años investigando como parte del camino de descubrimiento de cómo funciona nuestro órgano más desconocido - aún - "el cerebro".
En el mundo de la Inteligencia Artificial de los Modelos Visuales tienen que lidiar también con ellos, pero lo peculiar es que en ellos su cerebro no funciona como el nuestro. Clasificar imágenes es un proceso de clasificación, que bien podría ser un algoritmo de Machine Learning, sin una re-interpretación del mundo según se vea la imagen. Pero aún así, tienen que convivir con nuestra percepción del mundo.
Los modelos de IA no pueden ver nuestras Ilusiones, aunque ellos tengan Alucinaciones, pero deben saber que nosotros las vemos, por lo que deben reconocer que están ante una imagen de una Ilusión y a partir de ahí entender lo que le estamos preguntando, lo que queremos que razone, etcétera. Esto, genera una situación un tanto curiosa, como hemos visto en el artículo titulado: "The Illusion-Illusion: Vision Language Models See Illusions Where There are None" porque para reconocer nuestras ilusiones, su proceso de entrenamiento acaba llevándolos a ver ilusiones donde no las hay.
Al final, lo que sucede es que para reconocer que está ante una de nuestras ilusiones, se entrena el modelo con datos, y consigue reconocer la ilusión cuando la ve. Pero, la gracia está que, cuando se encuentra frente a una imagen que tiene similitud con la imagen de nuestra ilusión, la reconoce como si fuera la ilusión... y falla estrepitósamente.
En el artículo del que os estoy hablando, los investigadores han generado imágenes que son ilusión de la ilusión o Ilusion-Ilusion en el paper, y ha probado cómo se comportan los diferentes modelos visuales de los principales MM-LLMs que tenemos hoy en día.
Además de la probar la imagen de la Ilusion y de la Ilusion-Ilusion, han creado imágenes de Control que son justo la parte que deben evaluar para responder a la pregunta y detectar si es una ilusión o no. Es decir, dejando la parte clave de la imagen para eliminar el efecto de ilusión que provocan los elementos accesorios en nuestro cerebro.
Y ahora, con cada grupo de ilusiones, a probar cómo lo reconocen los principales Multi-Modal LLMs que tenemos hoy en día, donde los resultados son bastante curiosos. Primero con el Basic Prompt, que es la pregunta que se le haría a una persona para ver si cae o no en la ilusión. Son prompts donde no se le dice que hay una ilusión, y tiene que detectarla.
El grado de acierto con las imágenes de ilusiones es alto en GPT4, Claude3 y Gemini Pro, y más bajo en el resto, pero de igual forma estos mismos fallan mucho con las Ilusion-Ilusion donde cree que son ilusiones y no responden correctamente a la pregunta. Y con las imágenes de Control entre medias de ambos resultados.
En la Figura 8 tenéis los resultados diciéndoles en el Prompt que es una ilusión, para encaminarles - correcta e incorrectamente - en cada petición. Cuando se dice que es una ilusión, aciertan mucho más en las que realmente son una ilusión, pero fallan mucho más aún en las Ilusion-Ilusion y en las Imágenes de Control, con lo que su grado de acierto es bastante pequeño.
En la última imagen, tenéis fallos llamativos usando el Basic Prompt con las imágenes de Control en Gemini Pro, GPT-4o y Claude 3, donde queda claro que las imágenes de entrenamiento ha hecho que les lleve a tener este tipo de "Alucinaciones" inesperadas. Al final tiene que ver con el Potemkin Rate, porque parece que reconoce bien y no cae en las alucinaciones, pero es justo al contrario y cae en Hallucinations por culpa del entrenamiento para reconocer Illusions.
¿Se podría sacar uso a esto de forma maliciosa? Pues no sé, pero tomar decisiones en un sistema de navegación con Modelos Visuales de IA como los que tenemos en Automóviles, Drones o Aviones, puede ser un verdadero problema de seguridad física. Ya vimos cómo se podía hackear un Tesla con Pegatinas en la DefCon de hace años, y esta debilidad seguro que tiene aplicaciones "prácticas".
No es la primera vez que el debate del Reconocimiento Facial ocupa parte de este espacio. En el año 2023, en el artículo titulado "Detecciones policiales erróneas por "falsos positivos" en Reconocimiento Facial" se contaba la historia de cómo una mujer fue detenida y llevada a juicio por un reconocimiento facial a partir de imágenes de una cámara de seguridad, donde se olvidaron el detalle de que en ese momento, la mujer detenida estaba embarazada de 8 meses. Algo que no detectó el algoritmo de reconocimiento facial pero que era muy fácil de comprobar en su momento.
En los modernos Cognitive Services de Reconocimiento Facial, yo he puesto muchas veces el ejemplo de "hallucination" cuando me confundían en fotos a mí con el actor George Clooney, algo que creo que salta a la vista que no debería pasar de ninguna manera, y que sin embargo ha sucedido en más de una ocasión. Si sabemos que hay Sesgos, Falsos Positivos, Falsos Negativos o Hallucinations... ¿Podemos fiarnos de la Tecnología de Reconocimiento Facial (Facial Recognition Technology - FRT) ? Cuando la utilizamos con imágenes de cámaras de seguridad de baja calidad o en condiciones que no son las ideales... ¿son realmente fiables estas tecnologías?
Si miramos las imágenes con las que cuentan las FRTs para reconocer a las individuos, no son siempre ni a la mejor resolución, ni con la mejor calidad, ni con el mejor ángulo de enfoque, con lo que tienen una dura misión para detectar un Match de Reconocimiento facial que no sea más allá que "un indicio" leve para investigar después, pero parece imposible que se pueda utilizar como una prueba concluyente.
Para localizar estos Ratios de Falsos Positivos (FPR) y de Falsos Negativos (FNR), se ha hecho un experimento en el artículo generando 50.000 imágenes sintéticas utilizando un modelo de StyleGAN3. Estas imágenes se han catalogado después en función de sexo y raza para conseguir una dispersión mayor y probarla con diferentes tipos de personas.
La distribución de estas personas, en función de sexo y raza es más o menos homogénea en sexo, pero en raza se ha hecho una distribución sesgada entre raza blanca, negra y asiática, para probarlo en un entrono similar al que puede tener un país como los EstadosUnidos.
Ahora, lo siguiente que se ha hecho ha sido manipular esas imágenes para ponerlas en condiciones similares a las que se tienen las cámaras de seguridad y muchas de las investigaciones policiales, haciendo distorsiones de resolución, brillo, contraste, color, etcétera, y probar en condiciones NO ideales, que es a lo que se tienen que enfrentar las FRT de los cuerpos de seguridad que investigan los delitos.
Ahora, una vez que se tienen las imágenes generadas, se corren los procesos con las FRT para calcular el número de Falsos Positivos (FP), el Total de Positivos (TP), el número de Falsos Negativos (FN), Total de Negativos (TN), el Ratio de Falsos Positivos (FPR) y el Ratio de Falsos Negativos (FNR) todos ellos normalizados con el porcentaje de del sexo y raza de la población, para hacer una estimación más fiable de estos valores. Todos estos valores se miden haciendo búsquedas con objetivos en la base de datos, y con objetivos que no están en la base de datos - y que deberían no dar ninguna coincidencia -.
Y los resultados, como podríais imaginar son que tenemos un número significativo de Falsos Positivos, de Falsos Negativos, con sesgos más marcados por sexo y raza. En la siguiente tabla tenemos los Ratios deFalsos Positivos y Ratio de Falsos Negativos en función de la degradación de calidad de la imagen de búsqueda.
Pero, si lo miramos por tipo de degradación de la imagen, y por raza y género, vemos que los FPR y FNR son sensiblemente diferentes. Por ejemplo, hay más Falsos Negativos con imágenes de mujeres blancas con mala calidad de contraste que mujeres negras, pero hay más Falsos Positivos en mujeres negras que en mujeres blancas.
Pero es que si miramos cualquiera de las degradaciones de calidad, vemos que las FRT tienen diferentes FNR y FPR por raza y sexo, lo que hace que sea más propenso a dar un Falso Positivo o un Falso Negativo si tu raza es una u otra. Lo que hace que haya que poner estas tecnologías como indicios en las investigaciones policiales, pero nunca como prueba definitiva.
Este tipo de investigaciones hacen que corrijamos errores que podemos cometer con la tecnología y que pueden afectar de manera muy seria a la vida de las personas. Por todo ello, si eres de los que te dedicas a hacer informes periciales o análisis forenses, conocer estos datos son fundamentales para ajustar tus conclusiones en su justa medida. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligen
Hay una frase muy típica en el mundo de los programadores que utilizamos siempre en nuestros hackathones que es "Pon tu código donde pones tu boca" (Put your code where your mouth is") o lo que es lo mismo, enséñame tu código y no me digas lo bueno que eres. Así, en las presentaciones de los proyectos no se permitían presentaciones en PPT, y solo demos con código. Una buena forma de incentivar el delivery.
Figura 1: "Put your ETA where your mouth is"
Y basándome en esa idea estaba hablado con un compañero sobre conducir, que es algo que yo no suelo disfrutar demasiado, y el mundo de las rutas. La pregunta era si las ETA (Estimated Time of Arrival) en los GPS tipo Google Maps o Waze, que lo hacen siempre basado en tu forma de conducir, lo hacen a sabiendas de que te están dando un ETA por encima de los límites de velocidad en las carreteras que tienes que cubrir.
Es decir, si tu ETA dice que vas a llegar a una determinada hora, pero saltándose todos los límites de velocidad en las carreteras por las que tienes que pasar. Sí, esas son nuestras conversaciones habitualmente. Por supuesto que se hace uso de Machine Learning con tu historial de datos además de datos de tráfico en tiempo real, pero que pasa si el que conduce es el Señor Lobo de Pulp Fiction, que acuñó esta famosa frase:
- "It´s 30 mins away. I'll be there in 10. I drive real fast".
La pregunta, ¿le mostrará el Waze al Señor Lobo30 minutos de ETA o le enseñará 10 minutos de ETA?. Mi argumento es que puede que 10 sea lo más "accurate" en la realidad de ese usuario, pero mostrarle 10 minutos en el ETA es casi como gamificar la ruta y hacer como en los simuladores una carrera contra tu "ghost", lo que incentivaría una competición por batir el ETA (algo muy común en los conductores gamers), cometiendo infracciones de tráfico y poniendo en peligro a los demás.
La competición con el Señor Lobo
No tengo toda la información, pero hicimos una prueba muy sencilla mi querido contertulio de la charla. Sentados juntos tomando un escocés sacamos nuestro Waze y los dos pusimos la misma ruta. Y está claro que su afirmación de que él conduce muy rápido y que yo conduzco como una tortuga tiene su representación directa en los ETA.
Figura 3: El ETA de la ruta para mí: 1h y 59mina
En el de arriba se puede ver que a mi compañero le ha mostrado un ETA que es 9 minutos inferior al mío. Para que quedara clara la dirección pusimos una ruta larga, para que la diferencia de velocidad se notara claramente.
Figura 4: Ruta del Señor Lobo. Misma distancia.
Mismos peligros. Misma ruta. Misma hora.
9 minutos menos que la mía.
Por supuesto, como prueba curiosa podéis hacerla con amigos, pareja, compañeros de piso, compañeros de conducción, etcétera. Que te enseñen su ETA antes de subirte a un coche con un mal conductor, o que cuando alguien diga que conduce rápido, que ponga su ETA donde pone su boca. Y luego, por supuesto, queda la duda y el debate de si es bueno que pongan ETAs superiores a los límites de velocidad o si deberían limitarlos para incentivar una conducción correcta. ¿Opiniones?
La Inteligencia Artificial no se detiene, y su adopción en producción tampoco, pero hay una brecha silenciosa entre entrenar un modelo y servirlo de forma eficiente, escalable y mantenible. Aquí es donde Kubernetes se convierte en el aliado perfecto, y donde herramientas como KServe (el sucesor de KFServing) brillan.
Figura 1: Cómo servir modelos de ML e IA (LLMs) en Kubernetes con KServe.
Autoscaling Inteligente y Eficiencia en GPU
En este artículo te cuento cómo puedes montar una plataforma moderna para servir modelos de IA y LLMs sobre Kubernetes, aprovechar las novedades más recientes de KServe, y hacer que tu infraestructura escale según uso real y consumo de GPU.
Spoiler: sí, se puede tener eficiencia, velocidad y buena arquitectura al mismo tiempo.
¿Por qué servir modelos sobre Kubernetes?
Entrenar un modelo es sólo la mitad del camino. Lo difícil viene después: ponerlo a funcionar en producción de forma fiable, segura y escalable.
Alta disponibilidad
Autoescalado según carga real
Seguridad, versionado, observabilidad
Integración con pipelines CI/CD y orquestadores como Argo Workflows o Kubeflow
Kubernetes permite todo esto. Pero no hay que reinventar la rueda, y ahí entra KServe.
Antes de continuar… ¿Qué es Kubeflow y qué ofrece?
Kubeflow es una plataforma Open Source pensada para desplegar, escalar y gestionar flujos de trabajo de Machine Learning (ML) sobre Kubernetes. Su objetivo principal es llevar el desarrollo de modelos de ML a producción de forma reproducible, escalable y portátil.
Kubeflow no es una herramienta única, sino un conjunto de componentes modulares que cubren distintas etapas del ciclo de vida del modelo de Machine Learning:
Kubeflow Pipelines: Orquestación de pipelines de ML (entrenamiento, preprocesado, validación, etcétera).
Katib:AutoML y búsqueda de hiperparámetros.
KServe (antes KFServing):Serving de modelos con escalado automático y despliegues sin downtime.
Notebook Servers:Entornos Jupyter en Kubernetes, listos para trabajar con datos y modelos.
Central Dashboard y Profiles: Gestión multiusuario, RBAC, y control de recursos por equipo o proyecto.
Kubeflow se posiciona como una plataforma completa para MLops sobre Kubernetes, especialmente útil cuando necesitas estandarizar y automatizar todo el flujo de trabajo desde el desarrollo hasta el despliegue.
3.- Prometheus Adapter + HPA con métricas personalizadas
Prometheus Adapter permite exponer métricas personalizadas (por ejemplo: uso de memoria GPU, utilización del device, número de peticiones, etc.) como Custom Metrics API.
Con eso puedes configurar un HPA (Horizontal Pod Autoscaler) para escalar los pods de inferencia según esas métricas.
Esto se usa en entornos donde se necesita un autoscaling más inteligente y específico, especialmente con GPU.
Scale down a cero
¿Qué significa “scale down a cero” en KServe?
Es la capacidad de escalar a cero réplicas un modelo cuando no está recibiendo peticiones, y volver a levantarlo automáticamente (auto-scale up) cuando llega una nueva petición.
¿Qué beneficios tiene esta solución?
Ahorro de costes brutal:Si tienes muchos modelos desplegados pero no todos se usan constantemente, con scale-to-zero no malgastas CPU ni RAM. Ideal en entornos cloud donde pagas por uso de recursos, como en clusters gestionados (EKS, GKE, AKS…).
Optimización de recursos en el cluster:En vez de mantener todos los pods activos, los que no reciben tráfico se eliminan temporalmente, dejando espacio a otros workloads que sí lo necesitan. Ayuda a evitar sobrecargas y reduce la necesidad de sobredimensionar el cluster.
Despliegue eficiente de muchos modelos:Puedes permitir que muchos equipos o usuarios publiquen sus propios modelos sin saturar el sistema. Esto habilita patrones como “multi-tenancy” eficiente para inferencias bajo demanda.
Escalado bajo demanda: Si un modelo recibe tráfico repentino, KServe lo activa rápidamente. Esto es perfecto para modelos que solo se usan de vez en cuando o que funcionan como microservicios ML reactivos.
Canary rollout
KServe soporta dividir tráfico entre versiones de modelo (v1, v2, etcétera). Por ejemplo puedes hacer un 90/10, observar métricas y logs, y luego promover o descartar la nueva versión. Pero… ¿qué es Canary rollout?
El Canary rollout te permite probar una nueva versión de un modelo (por ejemplo v2) con una pequeña parte del tráfico real, mientras que la versión estable (v1) sigue sirviendo la mayoría del tráfico. Esto es clave para:
Validar rendimiento y exactitud del modelo en producción.
Detectar errores o regresiones antes de hacer el cambio completo.
Observar métricas y logs reales sin impactar a todos los usuarios.
storageUri: del bloque principal. Apunta a model-1, la versión actual y estable del modelo.
canary: Define model-2 como la nueva versión que se quiere probar.
canaryTrafficPercent: 10: indica que el 10% del tráfico entrante será dirigido a model-2, mientras que el 90% restante seguirá siendo servido por model-1.
Novedades destacadas
Desde la versión v0.15.0, KServe ha incorporado mejoras significativas para el despliegue de modelos de lenguaje (LLMs), incluyendo soporte distribuido con vLLM, mejoras en el runtime de Hugging Face y optimizaciones para almacenamiento y readiness. Esto abre la puerta a escenarios como:
Servir un modelo LLaMA o Falcon en múltiples nodos GPU.
Integrar modelos de Hugging Face con pipelines existentes y autoscaling por demanda.
Aprovechar técnicas avanzadas como RAG o agentes con herramientas directamente desde Kubernetes.
Si antes KServe era ideal para modelos tradicionales de Machine Learning, ahora también lo es para los modelos de última generación.
Algunas otras funcionalidades adicionales:
Soporte para descarga de archivos individuales desde GCS Google Cloud Storage), lo que mejora los tiempos de inicio.
Readiness probes más precisas, especialmente para modelos en transformers, mejorando la confiabilidad de despliegues en producción.
Introducción de “KServe Guru” en Gurubase.io, un espacio para encontrar y compartir soluciones de la comunidad.
Arquitectura tipo: Cómo lo montamos
Una plataforma de inferencia moderna sobre Kubernetes podría verse así:
KServe + Istio:para gestión de modelos como microservicios.
Knative Serving:para escalado a 0, cold start optimizado.
Prometheus + Grafana:para métricas personalizadas de GPU o latencia.
Cert-Manager + Ingress Gateway:TLS automático para exposición segura.
ArgoCD o Flux:GitOps para definir modelos como código.
GPU Operator de NVIDIA: para gestionar drivers y nodos GPU
¿Y si no quieres montar todo esto desde cero?
Aunque herramientas como KServe y Kubeflow son muy potentes, su configuración desde cero puede requerir tiempo, conocimientos avanzados de Kubernetes y una buena integración con infraestructura cloud o on-prem. Aquí es donde entran plataformas como Axebow.io, que están diseñadas para facilitar el despliegue de aplicaciones, entornos de Machine Learning e IA y plataformas completas sobre Kubernetes. Esto permite que equipos de IA y Data Science se enfoquen en desarrollar y servir modelos sin preocuparse por los detalles de infraestructura.
Axebow.io proporciona configuraciones optimizadas para rendimiento, autoscaling con GPU y despliegues reproducibles, lo que reduce la complejidad operativa y acelera el time-to-production. Si estás interesado en saber más, contacta con nosotros.