Engenharia

Como a IA é desenvolvida

Do dado bruto ao modelo em produção — um pipeline contínuo de engenharia, ciência e governança.

Pipeline de desenvolvimento

Clique em uma etapa para ver detalhes, ferramentas, custo, duração e armadilhas comuns.

Etapa 1 de 10

Coleta de dados

Origem, licenças e diversidade. Define o teto do modelo.

Custo médio Semanas a meses

Determina qualidade, viés e legalidade. Inclui scraping, parcerias, dados sintéticos e datasets públicos. Auditar licenças (CC, GPL, comercial) é obrigatório.

Ferramentas comuns

Common Crawl
LAION
HuggingFace Datasets
Apache Airflow

Saídas

Corpus bruto
Documentação (datasheet)

Armadilhas

Vazamento de dados pessoais
Datasets enviesados
Licenças incompatíveis

Conceitos técnicos essenciais

LLMs

Modelos generativos de linguagem em larga escala.

Métrica típica

175B–2T params

Ex.: GPT-4, Claude, Gemini, Llama

Open-source vs fechados

Trade-offs entre controle, custo e suporte.

Métrica típica

Custo total

Ex.: Llama, Mistral vs GPT, Claude

Fine-tuning & LoRA

Especializar sem treinar do zero.

Métrica típica

<1% dos params

Ex.: Adapters de domínio

Quantização

Rodar modelos grandes em hardware menor.

Métrica típica

4–8× menos RAM

Ex.: GGUF int4, AWQ

Local vs nuvem

Privacidade vs escala e custo.

Métrica típica

0 → ∞ req/s

Ex.: Ollama vs Bedrock

GPUs

Aceleradores que viabilizam IA moderna.

Métrica típica

TFLOPS / VRAM

Ex.: H100, B200, MI300

Benchmarks

MMLU, HumanEval, GPQA — referência com cautela.

Métrica típica

Score 0–100%

Ex.: Leaderboards

Janela de contexto

Tokens visíveis simultaneamente ao modelo.

Métrica típica

4k → 2M tokens

Ex.: Gemini 2M, Claude 200k