Benchmarks e custos dos LLMs
Performance, preço por token, custo total (equipes + GPUs + APIs) e o que dá pra fazer com cada faixa de orçamento — incluindo OpenCode (OpenCLAW) e Vibe Coding.
MMLU · HumanEval · GPQA · MATH
Pontuação % nos principais benchmarks. Maior é melhor.
| Modelo | Empresa | MMLU | HumanEval | GPQA | MATH | Contexto (K) | Ano |
|---|---|---|---|---|---|---|---|
| GPT-5 | OpenAI | 92% | 96% | 75% | 94% | 400K | 2025 |
| Claude 4.8 Sonnet | Anthropic | 93% | 95% | 76% | 92% | 500K | 2026 |
| Claude 4.5 Sonnet | Anthropic | 91% | 93% | 72% | 90% | 200K | 2025 |
| Gemini 2.5 Pro | 90% | 89% | 70% | 92% | 2000K | 2025 | |
| GPT-4o | OpenAI | 88% | 90% | 53% | 76% | 128K | 2024 |
| Llama 3.1 405B | Meta | 87% | 89% | 51% | 73% | 128K | 2024 |
| DeepSeek R1 | DeepSeek | 89% | 91% | 71% | 95% | 128K | 2025 |
| Grok 4 | xAI | 87% | 86% | 65% | 88% | 256K | 2025 |
| Mistral Large 2 | Mistral | 84% | 84% | 48% | 71% | 128K | 2024 |
Quanto custa rodar uma IA?
Preços e benchmarks variam. Sempre confirme nas páginas oficiais antes de fechar orçamento.
Quanto custa montar um produto de IA por mês?
Equipe + infraestrutura + APIs + ferramentas. Cenários sintetizados a partir de faixas de mercado (Glassdoor, Levels.fyi, AWS/GCP, OpenAI/Anthropic).
Equipe tradicional (sem IA assistida)
1 PM + 2 devs full-stack + 1 designer + 1 QA. Stack convencional, sem copilots.
Equipe com Copilot + ChatGPT Team
Mesma equipe, mas com GitHub Copilot e ChatGPT Team em todos os assentos.
Equipe enxuta com Vibe Coding (Lovable / v0 / Bolt)
1 PM + 1 dev sênior + 1 designer. Geram interfaces e CRUDs por prompt.
Solo founder com OpenCode (OpenCLAW) + Claude Skills
1 pessoa operando agente de código no terminal com skills customizadas.
Time enterprise com modelo próprio (fine-tuning)
8 engenheiros de ML + GPUs dedicadas + MLOps + LLM proprietário fine-tunado.
Salários de papéis-chave em IA
Brasil (R$ mil/mês) e EUA (US$ mil/ano em total compensation). Faixas referenciais.
| Papel | Brasil (R$ mil/mês) | EUA (US$ mil/ano) | Spread |
|---|---|---|---|
| ML Engineer Pleno | R$ 18–32 mil | US$ 180–280 mil | |
| ML Engineer Sênior | R$ 28–55 mil | US$ 250–450 mil | |
| Data Scientist Pleno | R$ 15–28 mil | US$ 150–240 mil | |
| AI Product Manager | R$ 22–45 mil | US$ 200–380 mil | |
| Prompt Engineer | R$ 12–25 mil | US$ 120–220 mil | |
| MLOps / Infra GPU | R$ 20–40 mil | US$ 200–350 mil | |
| AI Safety / Red Team | R$ 25–50 mil | US$ 220–400 mil | |
| Pesquisador IA (PhD) | R$ 35–90 mil | US$ 350–900 mil |
Custo de GPU/TPU on-demand (USD/hora)
Para quem pensa em treinar ou rodar modelos próprios em vez de usar API.
Treino de LLMs até 70B
Fine-tuning, inferência pesada
Inferência multimodal
Inferência leve, embeddings
Treino otimizado JAX/TF
Dev local com LM Studio / Ollama
O que dá pra fazer em cada faixa de orçamento?
Do chatbot de FAQ ao modelo próprio — cinco cenários reais incluindo OpenCode (OpenCLAW) e Vibe Coding, com stack sugerida e ROI esperado.
Chatbot interno para FAQ
Atende dúvidas recorrentes de RH, suporte ou vendas com base em PDFs e Notion.
Copiloto comercial (SDR automatizado)
Lê CRM, escreve e-mails personalizados, agenda follow-ups e prepara dossiês de leads.
Agente de código contínuo (OpenCode/OpenCLAW)
Roda no terminal do servidor, lê o repositório, abre PRs, escreve testes e responde issues.
Plataforma SaaS com IA generativa nativa
Produto vertical (jurídico, médico, educacional) com geração, busca semântica e voz.
Modelo fine-tunado proprietário
LLM treinado nos dados internos, rodando em VPC para compliance (LGPD, HIPAA, SOX).