Engenharia

Como a IA é desenvolvida

Do dado bruto ao modelo em produção — um pipeline contínuo de engenharia, ciência e governança.

Pipeline de desenvolvimento

Clique em uma etapa para ver detalhes, ferramentas, custo, duração e armadilhas comuns.

Etapa 1 de 10

Coleta de dados

Origem, licenças e diversidade. Define o teto do modelo.

Custo médio Semanas a meses

Determina qualidade, viés e legalidade. Inclui scraping, parcerias, dados sintéticos e datasets públicos. Auditar licenças (CC, GPL, comercial) é obrigatório.

Ferramentas comuns
  • Common Crawl
  • LAION
  • HuggingFace Datasets
  • Apache Airflow
Saídas
  • Corpus bruto
  • Documentação (datasheet)
Armadilhas
  • Vazamento de dados pessoais
  • Datasets enviesados
  • Licenças incompatíveis

Conceitos técnicos essenciais

LLMs
Modelos generativos de linguagem em larga escala.
Métrica típica
175B–2T params
Ex.: GPT-4, Claude, Gemini, Llama
Open-source vs fechados
Trade-offs entre controle, custo e suporte.
Métrica típica
Custo total
Ex.: Llama, Mistral vs GPT, Claude
Fine-tuning & LoRA
Especializar sem treinar do zero.
Métrica típica
<1% dos params
Ex.: Adapters de domínio
Quantização
Rodar modelos grandes em hardware menor.
Métrica típica
4–8× menos RAM
Ex.: GGUF int4, AWQ
Local vs nuvem
Privacidade vs escala e custo.
Métrica típica
0 → ∞ req/s
Ex.: Ollama vs Bedrock
GPUs
Aceleradores que viabilizam IA moderna.
Métrica típica
TFLOPS / VRAM
Ex.: H100, B200, MI300
Benchmarks
MMLU, HumanEval, GPQA — referência com cautela.
Métrica típica
Score 0–100%
Ex.: Leaderboards
Janela de contexto
Tokens visíveis simultaneamente ao modelo.
Métrica típica
4k → 2M tokens
Ex.: Gemini 2M, Claude 200k