Engenharia
Como a IA é desenvolvida
Do dado bruto ao modelo em produção — um pipeline contínuo de engenharia, ciência e governança.
Pipeline de desenvolvimento
Clique em uma etapa para ver detalhes, ferramentas, custo, duração e armadilhas comuns.
Etapa 1 de 10
Coleta de dados
Origem, licenças e diversidade. Define o teto do modelo.
Custo médio Semanas a meses
Determina qualidade, viés e legalidade. Inclui scraping, parcerias, dados sintéticos e datasets públicos. Auditar licenças (CC, GPL, comercial) é obrigatório.
Ferramentas comuns
- Common Crawl
- LAION
- HuggingFace Datasets
- Apache Airflow
Saídas
- Corpus bruto
- Documentação (datasheet)
Armadilhas
- Vazamento de dados pessoais
- Datasets enviesados
- Licenças incompatíveis
Conceitos técnicos essenciais
LLMs
Modelos generativos de linguagem em larga escala.
Métrica típica
175B–2T params
Ex.: GPT-4, Claude, Gemini, Llama
Open-source vs fechados
Trade-offs entre controle, custo e suporte.
Métrica típica
Custo total
Ex.: Llama, Mistral vs GPT, Claude
Fine-tuning & LoRA
Especializar sem treinar do zero.
Métrica típica
<1% dos params
Ex.: Adapters de domínio
Quantização
Rodar modelos grandes em hardware menor.
Métrica típica
4–8× menos RAM
Ex.: GGUF int4, AWQ
Local vs nuvem
Privacidade vs escala e custo.
Métrica típica
0 → ∞ req/s
Ex.: Ollama vs Bedrock
GPUs
Aceleradores que viabilizam IA moderna.
Métrica típica
TFLOPS / VRAM
Ex.: H100, B200, MI300
Benchmarks
MMLU, HumanEval, GPQA — referência com cautela.
Métrica típica
Score 0–100%
Ex.: Leaderboards
Janela de contexto
Tokens visíveis simultaneamente ao modelo.
Métrica típica
4k → 2M tokens
Ex.: Gemini 2M, Claude 200k