Dados

Benchmarks e custos dos LLMs

Performance, preço por token, custo total (equipes + GPUs + APIs) e o que dá pra fazer com cada faixa de orçamento — incluindo OpenCode (OpenCLAW) e Vibe Coding.

Ranking de performance

Quem está na frente hoje?

Média dos 4 principais benchmarks (MMLU geral · HumanEval código · GPQA ciências · MATH matemática). Quanto maior, melhor.

Atualização diária

GPT-5OpenAI · 2025

89%

média

Conhecimento geral(MMLU)

92%

Programação(HumanEval)

96%

Raciocínio científico(GPQA)

75%

Matemática(MATH)

94%

Claude 4.8 SonnetAnthropic · 2026

89%

média

Conhecimento geral(MMLU)

93%

Programação(HumanEval)

95%

Raciocínio científico(GPQA)

76%

Matemática(MATH)

92%

Claude 4.5 SonnetAnthropic · 2025

87%

média

Conhecimento geral(MMLU)

91%

Programação(HumanEval)

93%

Raciocínio científico(GPQA)

72%

Matemática(MATH)

90%

DeepSeek R1DeepSeek · 2025

87%

média

Conhecimento geral(MMLU)

89%

Programação(HumanEval)

91%

Raciocínio científico(GPQA)

71%

Matemática(MATH)

95%

Gemini 2.5 ProGoogle · 2025

85%

média

Conhecimento geral(MMLU)

90%

Programação(HumanEval)

89%

Raciocínio científico(GPQA)

70%

Matemática(MATH)

92%

Grok 4xAI · 2025

82%

média

Conhecimento geral(MMLU)

87%

Programação(HumanEval)

86%

Raciocínio científico(GPQA)

65%

Matemática(MATH)

88%

GPT-4oOpenAI · 2024

77%

média

Conhecimento geral(MMLU)

88%

Programação(HumanEval)

90%

Raciocínio científico(GPQA)

53%

Matemática(MATH)

76%

Llama 3.1 405BMeta · 2024

75%

média

Conhecimento geral(MMLU)

87%

Programação(HumanEval)

89%

Raciocínio científico(GPQA)

51%

Matemática(MATH)

73%

Mistral Large 2Mistral · 2024

72%

média

Conhecimento geral(MMLU)

84%

Programação(HumanEval)

84%

Raciocínio científico(GPQA)

48%

Matemática(MATH)

71%

Legenda:MMLU— Conhecimento geralHumanEval— ProgramaçãoGPQA— Raciocínio científicoMATH— Matemática

Como cada pontuação é calculada (metodologia)expandir

Cada benchmark é um teste padronizado, público e auditável. O número que você vê é a porcentagem de acertos do modelo no conjunto oficial — quanto mais alto, melhor. As pontuações são compiladas a partir de divulgações oficiais das empresas e leaderboards independentes (Artificial Analysis, LMSYS, Papers With Code) e atualizadas automaticamente uma vez por dia.

MMLUMassive Multitask Language Understanding

O que mede: 57 matérias acadêmicas (medicina, direito, matemática, história…) em múltipla escolha 5-opções.

Como pontua: % de acertos no zero-shot ou few-shot. Aleatório acerta ~25%. Humano especialista ~90%.

Fonte: Hendrycks et al., 2021 · publicado em arXiv:2009.03300

HumanEvalCode Generation Benchmark

O que mede: 164 problemas de programação em Python. O modelo gera código e os testes unitários decidem.

Como pontua: pass@1: % das tarefas resolvidas em uma única tentativa. Sem half-credit.

Fonte: OpenAI Codex paper · arXiv:2107.03374

GPQA DiamondGraduate-Level Google-Proof Q&A

O que mede: 448 questões de pós-graduação em física, química e biologia, escritas por PhDs.

Como pontua: % de acertos. Especialistas do domínio fazem ~65%. Não-especialistas com Google ~34%.

Fonte: Rein et al., 2023 · arXiv:2311.12022

MATHMathematics Competition Problems

O que mede: 12.500 problemas das olimpíadas matemáticas (AMC, AIME). Requer raciocínio passo a passo.

Como pontua: % de respostas finais corretas. Estudante mediano de competição ~40%; medalhistas ~90%.

Fonte: Hendrycks et al., 2021 · arXiv:2103.03874

Importante: benchmarks são úteis para ranqueamento bruto, mas nãomedem todas as dimensões que importam num produto real (latência, custo por token, capacidade de seguir instruções, segurança, suporte a português, multimodalidade). Use o ranking como ponto de partida, não como veredito final.

Modelo	Empresa	MMLU	HumanEval	GPQA	MATH	Contexto (K)	Ano
GPT-5	OpenAI	92%	96%	75%	94%	400K	2025
Claude 4.8 Sonnet	Anthropic	93%	95%	76%	92%	500K	2026
Claude 4.5 Sonnet	Anthropic	91%	93%	72%	90%	200K	2025
Gemini 2.5 Pro	Google	90%	89%	70%	92%	2000K	2025
GPT-4o	OpenAI	88%	90%	53%	76%	128K	2024
Llama 3.1 405B	Meta	87%	89%	51%	73%	128K	2024
DeepSeek R1	DeepSeek	89%	91%	71%	95%	128K	2025
Grok 4	xAI	87%	86%	65%	88%	256K	2025
Mistral Large 2	Mistral	84%	84%	48%	71%	128K	2024

Calculadora

Quanto custa rodar uma IA?

Modelo

Tokens de entrada por chamada: 100K

Tokens de saída por chamada: 50K

Chamadas por mês: 1.000

Preço atual: $5/1M entrada · $15/1M saída

Estimativa mensal

$1.250

≈ R$ 6.500

Entrada$500

Saída$750

Custo por chamada$1,25

ROI · Calculadora Pro

Vale a pena implementar?

Horas de dev: 80h

Custo/hora dev: $120

Horas economizadas/mês: 40h

Valor da hora economizada: $80

Implementação

$9,600

Economia/mês

$3,200

Payback

4.9 meses

Lucro líquido/ano

$13,800

Fontes e referências (clique para verificar)

OpenAI Pricing

Preços oficiais GPT-5, GPT-4o, embeddings, imagens.

Anthropic Pricing

Preços Claude 4.8 Sonnet, 4.5 Sonnet, Haiku, Opus.

Google AI Pricing

Gemini 2.5 Pro/Flash, contexto longo.

DeepSeek API

Preços ultra-competitivos do DeepSeek V3 e R1.

Artificial Analysis

Benchmarks independentes de qualidade × custo × latência.

LMSYS Chatbot Arena

Ranking por preferência humana (ELO).

8 engenheiros de ML + GPUs dedicadas + MLOps + LLM proprietário fine-tunado.

Equipe

$145.0k

Infra

$22.0k

APIs

$1.5k

Tools

$2.5k

$171,000/mês

$2,052,000/ano

Para dados sensíveis ou volume massivo

Times

Salários de papéis-chave em IA

Brasil (R$ mil/mês) e EUA (US$ mil/ano em total compensation). Faixas referenciais.

Papel	Brasil (R$ mil/mês)	EUA (US$ mil/ano)
ML Engineer Pleno	R$ 18–32 mil	US$ 180–280 mil
ML Engineer Sênior	R$ 28–55 mil	US$ 250–450 mil
Data Scientist Pleno	R$ 15–28 mil	US$ 150–240 mil
AI Product Manager	R$ 22–45 mil	US$ 200–380 mil
Prompt Engineer	R$ 12–25 mil	US$ 120–220 mil
MLOps / Infra GPU	R$ 20–40 mil	US$ 200–350 mil
AI Safety / Red Team	R$ 25–50 mil	US$ 220–400 mil
Pesquisador IA (PhD)	R$ 35–90 mil	US$ 350–900 mil

Hardware

Custo de GPU/TPU on-demand (USD/hora)

Para quem pensa em treinar ou rodar modelos próprios em vez de usar API.

NVIDIA H100 80GB

$4.5/h

AWS / GCP / Azure

Treino de LLMs até 70B

Mensal contínuo (24×30): $3,240

NVIDIA A100 80GB

$3/h

AWS / GCP

Fine-tuning, inferência pesada

Mensal contínuo (24×30): $2,160

NVIDIA L40S 48GB

$1.6/h

AWS / Lambda

Inferência multimodal

Mensal contínuo (24×30): $1,152

NVIDIA T4 16GB

$0.35/h

GCP / AWS

Inferência leve, embeddings

Mensal contínuo (24×30): $252

Google TPU v5e

$1.2/h

GCP

Treino otimizado JAX/TF

Mensal contínuo (24×30): $864

Apple M3 Ultra

$0.12/h

Investimento

Benchmarks e custos dos LLMs

Quem está na frente hoje?

Quanto custa rodar uma IA?

Vale a pena implementar?

Quanto custa montar um produto de IA por mês?

Equipe tradicional (sem IA assistida)

Equipe com Copilot + ChatGPT Team

Equipe enxuta com Vibe Coding (Lovable / v0 / Bolt)

Solo founder com OpenCode (OpenCLAW) + Claude Skills

Time enterprise com modelo próprio (fine-tuning)

Salários de papéis-chave em IA

Custo de GPU/TPU on-demand (USD/hora)

O que dá pra fazer em cada faixa de orçamento?

Chatbot interno para FAQ

Copiloto comercial (SDR automatizado)

Agente de código contínuo (OpenCode/OpenCLAW)

Plataforma SaaS com IA generativa nativa

Modelo fine-tunado proprietário

Adoção de IA por setor (%)

Investimento global em IA (US$ bi)