Los costes de los Tokens en los últimos modelos de IA empiezan a crear una nueva brecha entre las empresas y ciudadanos que tienen acceso a Tokens de modelos Frontera como Claude Fable sin límites, y aquellos que están sujetos a las limitaciones presupuestarias y tienen que usar modelos más económicos - o menos potentes -, lo que puede ser una diferencia de capacidades y de resultados para las empresas y las personas en el acceso a la Inteligencia Artificial.
Para amortiguar este impacto, ya os hablé en el artículo de "Cómo optimizar el gasto en IA con arquitecturas clasificadas, orquestadas y/o destilación. El problema de la Predictibilidad de los Costes de la IA" sobre cómo diseñar arquitecturas de software con orquestación de modelos, elección de algoritmos y destilación de conocimiento en productos y servicios que utilicen LLMs para funcionar. Además, en ese artículo os dejaba algunas recomendaciones en la reducción de Tokens que genera el modelo, para evitar costes innecesarios.
Sin embargo, acceder a estos últimos modelos, sobre todo con la aplicación de MM-LLMs para todo los Agentes IA para el Red Team, o para los servicios más modernos, sigue siendo una necesidad y las ideas para optimizar este consumo sin degradar el servicio siguen apareciendo. Esta última que os cuento es pxpipe, un proxy local que hace algo muy ingenioso.
Convierte tu Prompt y tu contexto en una imagen que se envía a Claude y que hace que los costes del uso de este LLM se reduzcan, gracias a que el coste de procesar las imágenes es fijo en función del tamaño en píxeles de la misma, y se puede lograr un ratio de 3 a 1 metiendo el texto de tu Prompt y tu Contexto de entrada en imágenes. Pero hace lo mismo en la salida, generando imágenes con los tokens de respuesta metidos en una imagen, lo que reduce también el coste.
Así de sencillo, y así de ingenioso. Además, como funciona como Proxy, es una solución perfecta para las apps móviles que usan LLMs con Proxys en el Backend, donde sólo hay que añadir el uso de pxpipe en ese Proxy para conseguir la reducción de costes.
Figura 5: Imagen hecha con pxpipe con todo el Prompt y Contexto
(Click en la imagen para ver en grande)
En el proyecto, que lo tienes publicado en GitHub, tienes un par de vídeos de ejemplos, donde puedes ver dos sesiones en paralelo. En esta primera comparación, tienes los Tokens de entrada, los Tokens de salida, y el coste del proyecto de una sesión Claude Fable normal.
La misma sesión, utilizando pxpipe, reduce los costes a menos de un tercio, y consigue los mismos resultados, inyectando sólo un poco más de tiempo en el análisis de la imagen con los datos de entrada y procesando los datos de salida en una imagen.
Y en esta imagen, lo mismo pero con pxpipe de por medio, donde el coste es poco más de seis dólares para hacer el mismo trabajo, lo que es una diferencia muy significativa.
Este "hack" de optimización se salta la política de costes del modelo, pero realmente no está haciendo nada prohibido, sino aprovechar los sistemas de tarificación y las capacidades de los modelos, pero es de suponer que como esta práctica se empiece a extender, simplemente cambiarán la política de tarificación en estos casos.
Figura 9: Demo 2 de pxpipe
En esta segunda demo que tenéis en vídeo, el resultado pasa de 12 USD a menos de 1 USD, lo que también es una reducción significativa. En el GitHub de pxpipe tenéis diferentes tablas y comprobaciones, pero lo puedes hacer tú. Es tan fácil como correr en local el proyecto y usar tu OpenCode a través de él para poder calcular lo que te consume y cómo funciona.
Este es un buen "hack" de IA, pero donde más duele, a la parte económica. No obstante, si lo que quieres controlar en tu empresa el uso y los costes que hacen los usuarios en los modelos, en Cloudflare AI Gateway tienes límites de presupuesto y observabilidad de los costes en todo momento, algo que te va a permitir evitar "sustos" indeseables.
Tienes toda la información sobre cómo funciona Cloudflare AI Gateway para el control de gastos en el artículo: "Your AI bill is out of control. Cloudflare can fix it now."
escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord
Como podéis ver, esto va my rápido, pero entender bien todos los detalles, los controles, y los límites de funcionamiento de cada capacidad que te dan los modelos de IA es fundamental. Si tus servicios digitales dejan que tus modelos queden malamente expuestos, podrás ser tú el que pague los costos de otros, como vimos con las apps móviles y con los asistentes digitales inseguros.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)











No hay comentarios:
Publicar un comentario