Análisis sencillo pero completo sobre el giro de la IA: de entrenar modelos a mantener servicios en tiempo real, y qué significa eso para negocios, empleo y competencia.
A su juicio, la demanda de inferencia, es decir, de poner a funcionar los modelos para millones de usuarios en tiempo real, está superando con creces la oferta y eso crea un cuello de botella que condiciona el ritmo del sector.
El foco se desplaza de entrenar grandes modelos a sostener ese servicio continuo; quien pueda cubrir altos costes de tokens conseguirá mejorar sus productos más rápido, y eso generará una rueda de retroalimentación que aumenta la retención de usuarios y la generación de datos para ajustar el sistema.
El pronóstico de Suleyman en 2026 indica que la mayor parte del gasto en #IA se destinará a inferencia, más que a entrenamiento. Los datos de Deloitte señalan que la carga de trabajo de inferencia ya representa cerca de dos tercios del gasto de cómputo total en IA; los plazos de entrega de GPUs se acercan a un año; la memoria de alta velocidad de los principales proveedores está agotada hasta 2026; la #infraestructura es la limitación principal.
En este contexto, las empresas con márgenes amplios pueden permitirse costes de tokens altos. Solo esas compañías pueden ofrecer baja latencia y una experiencia excelente; para las demás, el rendimiento baja y la retención disminuye. Así se crea una brecha entre soluciones empresariales bien financiadas y startups que carecen de capital.
Algunas voces señalan que abrir código o hacer IA en el dispositivo podría atajar costes
Algunas voces señalan que abrir código o hacer IA en el dispositivo podría atajar costes, pero la lectura de Suleyman es más bien la de un mercado que sigue prefiriendo a los grandes proveedores.
En cualquier caso, se advierte que la forma de éxito no será solo la ciencia, sino la capacidad de financiar el alcance de usuario y la velocidad del servicio.
En la práctica, #Microsoft ya está apostando fuerte: la empresa invierte cada año más de 80 mil millones de dólares en infraestructura de IA. En el segundo trimestre de 2026, las suscripciones de #Copilot alcanzaron 15 millones, un crecimiento del 160 por ciento respecto al año anterior. Estos números no son casualidad: reflejan que el modelo de negocio rentable es aquel que paga por servicios de mayor valor, con mayores márgenes y con datos propios para mejorar el producto.
Para un lector de hoy, el mensaje es claro: la IA no va de innovar por innovar, sino de sostener una red de servicios que funcione sin fallos a escala.
La competición ya no es solo entre laboratorios, sino entre quienes tienen la solvencia para cubrir tokens y servidores en cada segundo. En Europa y otros lados, el debate sobre regulación y competencia seguirá su curso, pero el impulso del costo de la infraestructura puede favorecer a quienes ya están en la pista.
En resumen, el gran cambio de 2026 es que la rentabilidad, la velocidad y la fiabilidad del servicio de IA dependerán menos de la inteligencia del modelo y más de la capacidad de las empresas para pagar por su uso continuo.
