Dívida de tokens: por que o FinOps para IA agêntica é um problema de engenharia, não de escolha de modelo
Por que o próximo capítulo do FinOps não é sobre encontrar um modelo mais barato. É sobre projetar sistemas que não desperdicem os tokens que já pagam.
Um líder financeiro abre a fatura mensal da plataforma de IA da empresa e encontra um número que não corresponde a nenhuma história que alguém consiga contar. O uso cresceu de forma moderada. A fatura cresceu de forma acentuada. Ninguém trocou para um modelo mais caro. Ninguém aprovou uma nova integração que alguém se lembre. O item simplesmente cresceu por conta própria, da mesma maneira que as faturas de nuvem costumavam crescer antes de alguém construir uma disciplina para acompanhá-las.
Pergunte à equipe de engenharia o que aconteceu e a resposta raramente tem uma única causa. São cem pequenas decisões: um prompt de sistema que cresceu toda vez que alguém incluiu uma nova regra, uma etapa de recuperação que busca dez documentos quando dois bastariam, um agente que tenta de novo uma chamada de ferramenta com falha cinco vezes antes de desistir, um fluxo de trabalho que passa uma conversa entre três agentes especializados e reenvia todo o histórico a cada transferência. Nenhuma dessas decisões parecia cara isoladamente. Juntas, elas são a fatura.

