A Microsoft apresenta Medição da energia de inferência LLM (escala de produção) • Custo mediano: 0,34 Wh/query (chatbot) • Raciocínio longo: 4,3 Wh/query (~13× mais alto) • Escala da frota: ~0,9 GWh/dia @1B queries → ~nível de busca na web • Estimativas públicas muitas vezes 4–20× muito altas • Ganhos de eficiência (modelo, serviço, hardware) → 8–20× menor energia possível Saídas longas dominam a energia; otimização inteligente mantém a pegada da IA gerenciável.