Aula 04 — Machine Learning & IA: o OURO MÁXIMO da Fluência (onde a vaga se decide)

🎙️ Sou o Camilo, teu professor de TI. Chegamos ao coração da prova nova. Se a Fluência te eliminou no SEFA-PA, foi aqui que o sangue escorreu — a FCC virou cientista de dados e este bloco virou o fiel da balança. Pega FIRME, Felício: esta é a aula mais importante da série inteira. A gente vai por ROI, atacando o que cai nas 3 provas primeiro. Senta que o caldo é grosso e é onde você vira o jogo.

🩸 Por que ESTA aula vale ouro (a mais importante de todas)

📊 O número que define tudo: somando as 3 provas-espelho (MT/GO/SP 2026) dá 13 questões de ML (MT à frente) — o maior bloco isolado da Fluência, disparado. Só na SEFAZ-SP foram 4 questões de ML puras (Lasso/Ridge, viés, treino-validação-teste e K-means). Não é "mais um tema": é a matéria.
☠️ É o teu gap eliminatório. Os 35% que te tiraram moram aqui. Tapar este buraco não é melhorar a nota — é deixar de ser cortado. ML é literalmente a diferença entre passar e rodar.
⚡ A boa notícia (e poucos te contam): ML na FCC não é programar, é RECONHECER. O Ianni cravou: "para concursos não precisa saber COMO funcionam, precisa saber o NOME deles" [02:00:34]. A banca te dá um cenário fiscal e pergunta "qual técnica?". Você não treina rede neural — você bate o olho e classifica. Isso é decorável, e eu vou te dar os gatilhos.
🧭 Tradução do Camilo: esta aula é GRANDE de propósito, mas tem ordem. Primeiro a gente trava os 5 campeões (sup×não-sup, clusterização, over/underfit, regressão, Lasso/Ridge + pré-processamento) — é onde estão 10 dos 13 pontos. Depois, os algoritmos por nome (reconhecimento), o Deep Learning/PyTorch (buraco órfão) e NLP em pílula. 80/20 puro.

🏅 Depoimento de aprovado

Gabriel Santana — 1º lugar SEFAZ-GO 2026 (banca FCC). (GO-2026 é o espelho do edital do CE — mesma banca, edital reciclado.) 🔗 Fonte: live LS Concursos c/ Prof. Lucas Eduardo · DEPOIMENTOS_APROVADOS.md (depoimento #1)

🎯 A tática dele pra ML: "Eu só aprendia mesmo com as questões." Em ML isso é lei — a teoria de ML é abstrata, mas a questão FCC repete o mesmo molde (cenário fazendário → "qual técnica?"). Faz 5 questões de clusterização e você nunca mais erra. Esta aula é feita pra isso: cada conceito vem amarrado numa questão real que já caiu.
💎 O ouro anti-desânimo (cola na parede): "TI a 70–75% por anos é NORMAL" — ML é difícil de propósito. Você não precisa gabaritar ML — precisa pegar os campeões (sup×não-sup, cluster, overfit) que repetem e somam o suficiente pra furar o corte. Margem, não perfeição.

🪞 E não precisa ser nerd: o Hueliton Fontes (26º SEFAZ-AP, 42 anos, ex-militar) tinha "verdadeiro pavor de TI" e fez 80% mirando os tópicos mais prováveis. (DEPOIMENTOS_APROVADOS.md, dep. #11.) Tradução: 42 anos, militar, do zero, 80% — esse é você. ML parece monstro, mas é um punhado de gatilhos que cabem num cartão de bolso.

🗺️ MINI-MAPA DA SÉRIE — onde mora o OURO

Aula	Tema	💰 Onde está o ponto
00	Fundamentos (DIKW · tipos de dado · ciclo de vida)	🛡️ blindagem barata — JÁ NO AR
01	CRISP-DM (as 6 fases na ordem)	🥉 alto — JÁ NO AR
02	Arquitetura & Eng. de Dados (DW/Lake/Lakehouse · ETL×ELT · OLAP · DAG)	🥈 ouro
03	Banco de Dados & SQL (relacional · normalização · NoSQL · SQL na mão)	🥈 OURO
04 ⬅️ (esta)	Machine Learning & IA (sup×não-sup · cluster · over/underfit · regressão · Lasso/Ridge)	🥇 O OURO MÁXIMO — 13 ML em MT/GO/SP (maior bloco)
05	Governança & Ética de Dados (qualidade · viés · ética IA · IA generativa)	🟡 médio
06	Segurança / LGPD / Sigilo Fiscal (CID · LGPD · CTN 198 + IN SEFAZ-CE 92/21)	🟡 médio
07	Python / Pandas / NumPy (Pandas · leitura de código)	👻 órfão eliminatório (hedge)

🔑 Leitura do mapa: você já tem a base (Aula 0), o método (CRISP-DM, Aula 1), onde o dado mora (Aula 2) e o SQL (Aula 3). Agora a gente entra no que a FCC mais cobra. A Aula 04 é o pico da montanha — depois dela é descida (governança, segurança, Python-hedge). Domina esta e você domina a Fluência.

🎙️ O PLACAR DOS PROFESSORES — quem tem faro pra ML (e quem fura)

Estes professores são INSUMO — a palavra final é minha. Faro = quão bem cada um previu o que a FCC 2026 realmente cobrou em ML (MT/GO/SP — provas que JÁ aconteceram).

Prof	Faro ML	Confie nele para...
🥇 Lucas Ianni (Estratégia)	9/10	a fonte-mãe do bloco — sup×não-sup, over/underfit, clusterização, algoritmos por nome. Cirúrgico no conceito de ML.
🥇 Felipe Mathias (TI Descompl.)	10/10 (SP)	o único completo — único que nomeou Lasso×Ridge, cravou viés×alucinação e train/val/test. Fonte de fechamento.
🥈 Renato da Costa (prof oficial CE)	6/10	as 3 caixinhas (sup/não-sup/reforço) e pré-processamento. ⚠️ deixa Lasso/Ridge e PyTorch "pra aula 2".
Thiago Cavalcanti	7/10	conceito limpo (DL ≠ paradigma; KNN/SVM) — banca FGV, vale o conceito, não a banca.

⚠️ HONESTIDADE OBRIGATÓRIA: o Ianni é o professor-mãe deste bloco (faro 9/10 em MT+GO) — cravou quase tudo. MAS ele tem 2 buracos: (1) não destilou PyTorch/frameworks (que caiu na GO) e (2) tangenciou o detalhe fino (regressão multinomial, Ward+euclidiana). E o Mathias é o único que entregou Lasso×Ridge. 🧭 Tradução do Camilo: eu uso o Ianni pra fundação do bloco, fecho com o Mathias nos pontos-cegos, e tapo eu mesmo o que ninguém deu (PyTorch). É exatamente nesses buracos que eu agrego o que o concorrente não tem.

🧠 BIZU DA BANCA — como a FCC pensa Machine Learning

🎯 A FCC NÃO pergunta "o que é overfitting". Ela monta um caso fiscal ("modelo de risco de inadimplência vai bem no treino e mal em contribuintes novos") e pede pra você nomear o fenômeno. Conceito vira diagnóstico, não definição.
⚡ O molde-rei do bloco (decore o formato): "a SEFAZ tem [cenário fiscal] e precisa [objetivo] → qual a TÉCNICA correta?". Quase toda questão de ML é isso. Você lê o gatilho (sem rótulo? prever número? agrupar?) e crava a técnica.
🪤 A FCC ama plantar o par trocado: "clusterização supervisionada" (não existe), "Ridge zera coeficientes" (é o Lasso), "KNN é não-supervisionado" (é supervisionado). O erro mora num par invertido. Ache o par trocado e risque.
🔗 Conexão (não-ilha): o pré-processamento desta aula é a fase de preparação do CRISP-DM (Aula 1) — limpar o dado vem ANTES de treinar o modelo. E o modelo trabalha em cima da NF-e (XML, Aula 0) e do Data Lake (Aula 2). Tudo conversa.

🔑 Bordão da aula: na FCC, ML não se programa — se RECONHECE pelo gatilho. Sem rótulo = não-supervisionado = clustering.

📑 SUMÁRIO — os blocos desta aula (em ordem de ROI)

🥇 O NÚCLEO (cai nas 3 provas — ataca primeiro):

Bloco 1 — Supervisionado × Não-supervisionado × Reforço 🔴 — o gatilho-mestre "sem rótulo = clustering".
Bloco 2 — Clusterização 🔴 — K-means, K-means++/inércia, hierárquica/Ward, dendrograma (o campeão de recorrência).
Bloco 3 — Over/Underfitting + Viés/Variância + Treino-Validação-Teste 🔴 — o diagnóstico que a FCC ama.
Bloco 4 — Regressão 🔴 — linear, logística (=classificação/sigmoide), multinomial/softmax.
Bloco 5 — Lasso (L1) × Ridge (L2) 🔴 — o ponto-cego que só o Mathias deu.
Bloco 6 — Pré-processamento 🔴 — limpeza, imputação, normalização, outliers (NUNCA excluir registro!).

🥈 RECONHECIMENTO (pílulas — médio/buraco):

Bloco 7 — Algoritmos por nome 🟠 — Random Forest, Isolation Forest, KNN×K-means, SVM, árvore.
Bloco 8 — Deep Learning / Redes Neurais / PyTorch 🔴 buraco — o órfão da GO.
Bloco 9 — Métricas 🟡 — matriz de confusão, precisão/recall, erro tipo I/II.
Bloco 10 — NLP 🟢 — pílula curta.
🎓 FECHO + PLANO DE ATAQUE + DRILL.

▶️ Próximo (Bloco 1): o conceito mais recorrente do bloco inteiro — as 3 caixinhas de aprendizado — ancorado na fiscalização da DABOA, com o gatilho que mata metade das questões de ML da prova. Bora pro ouro.

Bloco 1 — SUPERVISIONADO × NÃO-SUPERVISIONADO × REFORÇO (o gatilho-mestre 🔴)

🎯 O que travar neste bloco (só isso):

3 caixinhas: supervisionado (TEM rótulo) · não-supervisionado (SEM rótulo) · reforço (recompensa/tentativa-erro).
O gatilho de ouro: viu "sem rótulo / sem variável-alvo" → NÃO-supervisionado → clustering. Viu "rotulado / treino+teste" → supervisionado.
Os pares que NÃO existem (a FCC planta): "clusterização supervisionada", "regressão não-supervisionada".

🔴 PROBABILIDADE PRO CE: ALTA. É o conceito mais recorrente do bloco — caiu em MT (2×), é a base da questão de GO e caiu em SP. Os 3 sinais batem: caiu nas provas-espelho, o Renato (prof do CE) crava as "3 caixinhas", e está no edital (noções de ML). Se você só tem tempo pra um tema de ML, é este.

🎬 Caso prático — as 3 missões do Guilherme na DABOA

O Guilherme (seu amigo auditor) recebe 3 tarefas sobre a DABOA Comércio (a empresa fictícia, sempre ela). Cada uma é um tipo de aprendizado:

Missão do Guilherme	Tem "gabarito" prévio?	Tipo de aprendizado	Por quê
1️⃣ "Esses 10 mil contribuintes JÁ foram rotulados como 'fraudou' ou 'não fraudou'. Treina um modelo pra prever os novos."	✅ SIM (rótulo histórico)	SUPERVISIONADO	aprende de exemplos rotulados → prevê (f(x) = Y)
2️⃣ "Não tenho rótulo nenhum. Acha sozinho grupos de contribuintes parecidos pra eu priorizar."	❌ NÃO (sem rótulo)	NÃO-SUPERVISIONADO	acha padrão/grupo sem variável-alvo → clustering
3️⃣ "O robô de fiscalização tenta uma ação, leva recompensa se acerta e penalidade se erra, e vai melhorando."	🎯 recompensa	POR REFORÇO	aprende por tentativa-erro maximizando recompensa

A sacada: a única pergunta que decide é "tem rótulo (resposta certa) no treino?". Tem → supervisionado. Não tem → não-supervisionado. Recompensa por ação → reforço. É exatamente o que a FCC pergunta — ela só veste de cenário fiscal.

🧊 AS 3 CAIXINHAS — caixa-mãe (decore esta tabela)

Tipo	A pergunta	O que faz	Tarefas/algoritmos	No Fisco
Supervisionado	"tenho rótulo?" → SIM	aprende de exemplos rotulados → prediz (é PREDITIVO)	classificação (categoria) + regressão (número) · KNN, SVM, árvore, Random Forest, regressão	prever se o contribuinte vai inadimplir (já sei quem inadimpliu antes)
Não-supervisionado	"tenho rótulo?" → NÃO	acha estrutura/padrão sozinho (é DESCRITIVO)	clusterização (K-means, hierárquico) · redução de dimensão (PCA) · anomalia · associação	agrupar contribuintes parecidos sem saber os grupos de antemão
Por reforço	"recompensa por ação?"	aprende por tentativa-erro, maximiza recompensa	Q-learning, política	robô que aprende a sequência ótima de ações de fiscalização

🔑 A REGRA DE OURO (cole na parede):

SEM rótulo / SEM variável-alvo → NÃO-supervisionado → clustering. Sempre.
Supervisionado = PREDITIVO (prevê) · Não-supervisionado = DESCRITIVO (descreve/agrupa).
Classificação E regressão são SEMPRE supervisionadas (Renato: "chuta direto, não existe classificação não-supervisionada").

🎙️ O PLACAR DOS PROFESSORES — Supervisionado × Não-supervisionado

Leitura do Camilo: o Ianni é o dono deste tema — cravou com as palavras exatas que a FCC usou. É a aposta mais segura do bloco inteiro.

Prof	Apostou?	Veredito	O que disse (literal do dossiê)
Lucas Ianni (Estratégia)	✅ forte	🎯 CRAVOU (MT q2929/2996)	"o aprendizado supervisionado é um aprendizado preditivo... Cuidado, isso DESPENCA em prova" [01:21:50] · "o não-supervisionado é descritivo... vai colocar na sua prova" [01:37:49]
Felipe Mathias (resolução SP)	✅	🎯 CRAVOU (SP q3717)	"'Sem rótulos' é o gatilho → não supervisionado = clustering"
Renato da Costa (prof do CE)	✅	🎯 conceito	as 3 caixinhas (sup/não-sup/reforço); "toda classificação e toda regressão são supervisionadas"

A leitura do Camilo: quando o Ianni fala "DESPENCA" e a prova confirma com 4 questões, você confia. Mas confia entendendo o gatilho (tem rótulo?), não decorando — porque a FCC veste isso de mil cenários fiscais diferentes.

🎯 QUESTÃO REAL — o gatilho "sem rótulo" puro (caiu de verdade ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863442

1 toque = candidata · 2 toques = riscar (eliminei)

Uma Secretaria da Fazenda analisa declarações fiscais sem rótulos prévios para identificar padrões de comportamento econômico atípico entre contribuintes, visando a subsidiar auditorias. A abordagem de aprendizado de máquina corretamente aplicada ao cenário descrito é aprendizado

🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO (a FCC repete)

"Clusterização supervisionada" e "regressão não-supervisionada" NÃO EXISTEM. (Ianni). Clusterização é SEMPRE não-sup; regressão e classificação são SEMPRE sup. Viu o par trocado → risca.
A palavra "segmentar" engana. "Segmentar contribuintes" parece cluster — mas se o enunciado disser que já há categorias prévias / treino+teste, é classificação supervisionada. Treino+teste sempre crava supervisionado (crítica do Renato à FCC).
"Sem rótulo" = não-supervisionado, ponto. Não importa o nome bonito do algoritmo na alternativa (ROC, regras manuais) — se exige rótulo e o cenário negou rótulo, é distrator.
Reforço ≠ não-supervisionado. Reforço tem recompensa/ação sequencial; não-sup só tem dado pra agrupar. Se aparece "recompensa/penalidade/ação", pensa reforço.

🔗 CONEXÃO — não é ilha

Supervisionado = preditivo liga direto com o para-brisa da Aula 0 (Big Data olha pra frente: preditiva/prescritiva) e com a regressão (Bloco 4 aqui). Não-supervisionado = descritivo liga com o retrovisor/análise descritiva.
No CRISP-DM (Aula 1), escolher sup×não-sup acontece na fase de Modelagem — e depende do que você definiu na fase de Negócio ("tenho exemplos rotulados de fraude? então supervisionado").
Bordão da ponte: "se o Guilherme já sabe quem fraudou (rótulo), o modelo PREVÊ (supervisionado); se ele só quer descobrir grupos (sem rótulo), o modelo DESCREVE (clustering)."

🧊 GUARDE NO BOLSO (Bloco 1)

SEM rótulo → NÃO-supervisionado → clustering. O gatilho que mata metade das questões de ML.
3 caixinhas: supervisionado (rótulo, preditivo) · não-sup (sem rótulo, descritivo) · reforço (recompensa/ação).
Classificação e regressão = SEMPRE supervisionadas. "Cluster supervisionado" e "regressão não-sup" não existem.
🪤 Treino+teste = supervisionado. Recompensa por ação = reforço.

➡️ Próximo (Bloco 2): agora que você sabe que "sem rótulo = clustering", vamos ver COMO o computador agrupa — o K-means e a hierárquica, o tema que caiu nas 3 provas (campeão de recorrência). Você vai ver o Guilherme separar os contribuintes da DABOA em "grupos de risco" sem ter rótulo nenhum.

Bloco 2 — CLUSTERIZAÇÃO (o campeão de recorrência 🔴)

🎯 O que travar neste bloco (só isso):

K-means: passo a passo (4 passos) + K-means++ (resolve a inicialização ruim, escolhe a de menor inércia) + é sensível a outliers.
Hierárquica aglomerativa: método de Ward + distância euclidiana ao quadrado → gera dendrograma (o par órfão que caiu na GO).
Cluster NÃO divide igual: 12 elementos / 3 grupos ≠ 4 por grupo (depende da proximidade).

🔴 PROBABILIDADE PRO CE: ALTA (a mais segura). Clusterização caiu nas 3 provas-espelho (MT q2994, GO q2747, SP q3717) — o único tema de ML com esse retrospecto. É o campeão. Se cair UMA questão de ML no CE, há boa chance de ser esta.

🎬 Caso prático — o Guilherme separando a DABOA em grupos de risco

O Guilherme tem 500 mil contribuintes e nenhum rótulo (missão 2). Ele quer grupos naturais pra priorizar auditoria. Roda um K-means com K=3:

Passo do K-means	O que acontece com os contribuintes
1️⃣ Inicializa	escolhe 3 "centroides" (pontos-centro) iniciais
2️⃣ Atribui	cada contribuinte vai pro centroide mais próximo (distância euclidiana)
3️⃣ Recalcula	o centroide vira a MÉDIA dos contribuintes do grupo
4️⃣ Repete	refaz 2-3 até os grupos pararem de mudar (convergir)

Resultado: 3 grupos — "baixo risco", "médio", "alto risco" — descobertos pelos dados, sem rótulo. O número de grupos NÃO sai igual: um grupo pode ter 200 mil, outro 50 mil — depende da proximidade, não da divisão "justa".

🧊 CLUSTERIZAÇÃO — caixa-mãe (decore)

Família	Como agrupa	Precisa dizer K antes?	Saída	Gatilho FCC
K-means (particional)	centroides + média; minimiza distância	✅ SIM (define K)	grupos "planos"	"segmentar em K grupos", "centroides"
K-means++	igual, mas inicializa melhor	sim	menor inércia	"reduzir sensibilidade à inicialização"
Hierárquica aglomerativa (Ward)	junta os mais próximos de baixo pra cima (bottom-up)	❌ NÃO (vê no dendrograma)	dendrograma (árvore)	"estrutura hierárquica", "sem saber o nº de grupos"
DBSCAN	por densidade (acha grupos de forma livre + ruído)	não	grupos + outliers	"densidade", "formato irregular"

🔑 GATILHOS DE OURO:

"reduzir sensibilidade à inicialização" + "menor inércia" → K-means++ (literal na MT).
"estrutura hierárquica interpretável" + "sem nº prévio de grupos" → hierárquica aglomerativa Ward + euclidiana ao quadrado (literal na GO).
K-means é sensível a OUTLIERS (usa média, e média afunda com extremo).

🎙️ O PLACAR DOS PROFESSORES — Clusterização

Leitura do Camilo: o Ianni deu o passo a passo do K-means cravado, mas tangenciou o par exato da GO (Ward+euclidiana). É onde eu reforço.

Prof	Apostou?	Veredito	O que disse (literal do dossiê)
Lucas Ianni (GO)	✅ forte	🎯 CRAVOU (q2994/q3717)	"K-means++/múltiplas inicializações com menor inércia" [2:40:28] · passo a passo do K-means (inicializa→atribui→recalcula média→repete) [02:20:54]
Lucas Ianni (GO)	parcial	⚠️ tangenciou	listou famílias (K-means, AGNES/DIANA, DBSCAN, GMM) mas não nominou "Ward + euclidiana ao quadrado" — e foi exatamente o que caiu na GO
Felipe Mathias (SP)	✅	🎯 CRAVOU (q3717)	"K-means/DBSCAN/hierárquico" — mata por eliminação
Renato da Costa (prof do CE)	✅	🎯 conceito	"clusterização NÃO divide igual: 12 elementos / 3 clusters ≠ 4 por grupo; quem dividiu perdeu o ponto"

A leitura do Camilo: confia no Ianni pro K-means (ele crava), mas grava o par órfão da GO: "hierárquica + Ward + euclidiana ao quadrado = dendrograma". Ninguém martelou esse trio e ele caiu literal — é onde você ganha o ponto que o concorrente larga.

🎯 QUESTÃO REAL — K-means++ e a inércia (caiu na MT ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863434

1 toque = candidata · 2 toques = riscar (eliminei)

Considere a segmentação de contribuintes por perfil de comportamento fiscal com variáveis numéricas padronizadas e a necessidade de reduzir sensibilidade à inicialização e estabilizar agrupamentos ao longo do tempo. A prática técnica mais adequada ao aplicar K-Means ao cenário descrito é

🎯 Reforço — a HIERÁRQUICA Ward (o par órfão, caiu na GO ✅)

🎯 Questão — teste agora

FCC — AFRE GO/SEFAZ GO 2026 · tec 3975961

1 toque = candidata · 2 toques = riscar (eliminei)

Uma Secretaria Estadual analisa contribuintes do ICMS com variáveis numéricas contínuas padronizadas (faturamento, variação intermensal, frequência de retificações e uso de créditos), sem conhecimento prévio do número de grupos, e deseja obter uma estrutura hierárquica interpretável para priorização de auditorias. A combinação técnica que atende ao cenário descrito é

🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

K-means EXIGE K antes e dá grupos planos · hierárquica NÃO exige e dá dendrograma. A FCC troca os dois.
Cluster NÃO divide igual. "12 elementos / 3 clusters = 4 por grupo" → ERRADO (o tamanho depende da proximidade). Renato: "quem dividiu perdeu o ponto".
K-means é sensível a outliers (usa média). Se a banca disser "K-means é robusto a valores extremos" → falso.
K-means++ resolve a inicialização (não a distância, não o nº de grupos). Gatilho: "sensibilidade à inicialização" + "menor inércia".
Dendrograma = só hierárquica. Se a alternativa põe "dendrograma" com K-means/k-medoids/DBSCAN → distrator (letra A da GO).

🔗 CONEXÃO — não é ilha

Clusterização é a aplicação nº1 do não-supervisionado (Bloco 1) — fecha o gatilho "sem rótulo = clustering".
As variáveis padronizadas dos enunciados vêm da normalização do pré-processamento (Bloco 6) — você padroniza ANTES de clusterizar (senão a variável de maior escala domina). Conecta com a fase de preparação do CRISP-DM (Aula 1).
Bordão da ponte: "o Guilherme agrupa a DABOA em grupos de risco sem rótulo (cluster); se quer a árvore de parentesco dos grupos, usa hierárquica (dendrograma)."

🧊 GUARDE NO BOLSO (Bloco 2)

K-means: define K → centroides → média → repete. Sensível a outliers. K-means++ = inicialização melhor, menor inércia.
Hierárquica aglomerativa = Ward + euclidiana² = dendrograma. Não exige K antes. (o par órfão da GO).
🪤 Cluster não divide igual (12/3 ≠ 4 por grupo).
Gatilhos: "menor inércia/inicialização" = K-means++ · "estrutura hierárquica/sem nº de grupos" = hierárquica Ward.

➡️ Próximo (Bloco 3): o modelo agrupou/previu — mas será que generaliza ou só decorou o treino? Entra o diagnóstico que a FCC mais ama: over/underfitting, viés × variância e o porquê de separar treino-validação-teste. Você vai ver o modelo do Guilherme "ir bem no treino e mal na vida real".

Bloco 3 — OVER/UNDERFITTING + VIÉS/VARIÂNCIA + TREINO-VALIDAÇÃO-TESTE 🔴

🎯 O que travar neste bloco (só isso):

Macete-mestre do Ianni: viés alto = underfit (treina MAL) · variância alta = overfit (treina BEM, generaliza MAL).
Overfit = vai bem no treino e mal em dado novo (decorou o ruído). Underfit = vai mal até no treino (modelo simples demais).
Treino-validação-teste: separa pra avaliar generalização e evitar overfitting (gabarito literal SP).

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em MT (2× — q2930, q2997) e SP (q3715 — train/val/test). É um dos diagnósticos mais frequentes. O Ianni cravou com as palavras exatas.

🎬 Caso prático — o modelo do Guilherme que "decorou" o treino

O Guilherme treina um modelo pra prever inadimplência de ICMS. No teste interno:

📈 No conjunto de treino: acerta 99%. "Que máquina!"
📉 Nos contribuintes novos (teste): cai pra 62%. "Ué?"

O que houve? O modelo decorou o ruído do treino (até a marca de café na planilha) em vez de aprender o padrão geral. Vai ótimo no que já viu, péssimo no que é novo. Isso é overfitting — alta variância.

O oposto: se o Guilherme usasse um modelo simples demais (só "olha o faturamento"), erraria até no treino — underfitting, alto viés.

🧠 Bizu da banca

A analogia do CEFAN: você treinou um circuito de obstáculos decorando aquela pista específica (cada poça, cada corda). No dia da prova, pista diferente → você trava. Decorou o treino, não aprendeu a técnica geral → overfitting. Já quem treinou de menos e nem a pista conhecida vence → underfitting.

🧊 OVER × UNDER — caixa-mãe (decore o macete do Ianni)

	Underfitting	Overfitting
Viés / variância	viés ALTO	variância ALTA
No treino	vai MAL (nem decora)	vai BEM (decora demais)
Em dado novo	vai mal	vai MAL (não generaliza)
Modelo é...	simples demais	complexo demais
Causas	poucas variáveis, modelo raso	muitas épocas, poucos dados, data leakage
Bizu	"burro nos dois"	"gênio no treino, burro na prova"

🔑 O MACETE CRAVADO (Ianni [02:31:53], palavra por palavra): "alto viés → treina mal → underfit; alta variância → treina bem, testa mal → overfit."

🔑 TREINO-VALIDAÇÃO-TESTE: separar os 3 conjuntos serve pra avaliar o desempenho generalizável e evitar overfitting (gabarito literal da SP). Treino = aprende · validação = ajusta hiperparâmetros · teste = mede o resultado final (só uma vez).

🎙️ O PLACAR DOS PROFESSORES — Over/Underfit

Leitura do Camilo: o Ianni cravou idêntico ao gabarito. É um dos temas mais seguros da série.

Prof	Apostou?	Veredito	O que disse (literal do dossiê)
Lucas Ianni (MT)	✅ forte	🎯 CRAVOU (q2930/2997/3715)	"alto viés, treina mal, underfit; alta variância, treina bem, testa mal, overfit" [02:31:53]
Lucas Ianni (MT)	✅	🎯 CRAVOU	causas de overfit: alta variância, muitas épocas, poucos dados, data leakage ("a cola na mão" — caso real do Llama) [02:45:32]
Lucas Ianni (MT)	✅	🎯 conceito	"viés tem DOIS sentidos: IA = preconceituoso (caiu SP); estatística = erro de bias → underfit" [02:20:24] — não confundir
Felipe Mathias (SP)	✅	🎯 CRAVOU (q3715)	deu o esqueleto de overfitting + train/val/test

A leitura do Camilo: decora o macete do Ianni como mantra. E atenção ao duplo sentido de "viés": aqui (bias-variância) é erro estatístico → underfit; lá no Bloco 9/Governança é viés ético/discriminatório. A FCC usa as duas — o contexto diz qual.

🎯 QUESTÃO REAL — o overfitting clássico (caiu na MT ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863304

1 toque = candidata · 2 toques = riscar (eliminei)

Uma Administração Tributária desenvolveu um modelo de aprendizado supervisionado para prever o risco de inadimplência tributária de contribuintes, com o objetivo de priorizar ações de fiscalização. Observou-se que o modelo apresenta excelente desempenho no conjunto de treinamento, mas desempenho significativamente inferior quando aplicado a novos contribuintes (conjunto de teste). Nesse caso, está ocorrendo

🎯 Reforço — train/val/test, o porquê (caiu na SP ✅)

🎯 Questão — teste agora

FCC — SEFAZ-SP 2026 · tec 3843227

1 toque = candidata · 2 toques = riscar (eliminei)

Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é

🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

Underfit ↔ overfit invertidos. Underfit vai mal no treino; overfit vai bem no treino e mal no teste. A FCC troca (foi a letra C da q2930).
Viés alto = underfit / variância alta = overfit. A FCC pode inverter o macete (q2997 tinha "underfitting por baixa variância" = errado).
"Validação ≠ teste." Validação ajusta hiperparâmetros; teste mede o final. A FCC inverte os papéis dos 3 conjuntos.
Duplo sentido de "viés": aqui = erro estatístico (bias) → underfit. No contexto ético = discriminação. Leia o contexto.
Causas de overfit ≠ o fenômeno. "Poucos dados" é causa; o nome do fenômeno (treino bom/teste ruim) é overfitting.

🔗 CONEXÃO — não é ilha

Over/underfit é a fase de Avaliação do CRISP-DM (Aula 1) — você só descobre que deu overfit avaliando no teste.
A regularização (Lasso/Ridge, Bloco 5) é o remédio do overfitting — penaliza a complexidade pra o modelo generalizar.
Bordão da ponte: "o modelo do Guilherme que decorou o treino (overfit) é como decorar a pista do CEFAN — no dia, pista nova, você trava."

🧊 GUARDE NO BOLSO (Bloco 3)

viés alto = underfit (treina MAL) · variância alta = overfit (treina BEM, testa MAL).
Overfit = treino bom + teste ruim (decorou ruído). Underfit = ruim até no treino.
Treino-validação-teste = avaliar generalização + evitar overfitting.
🪤 Não confunda os dois sentidos de "viés" (estatístico × ético).

➡️ Próximo (Bloco 4): o supervisionado que prevê número (regressão) — linear, logística (que na verdade classifica!) e a multinomial/softmax que caiu na GO. Você vai ver o Guilherme prever o ICMS esperado e classificar risco com a mesma família de modelos.

Bloco 4 — REGRESSÃO (linear · logística · multinomial 🔴)

🎯 O que travar neste bloco (só isso):

Regressão linear = prevê número contínuo (ICMS esperado, valor). Cuidado com multicolinearidade (variáveis correlacionadas) e análise de resíduos.
Regressão LOGÍSTICA = CLASSIFICAÇÃO (saída categórica via sigmoide + limiar 0,5) — NÃO prevê número contínuo.
Logística MULTINOMIAL (softmax) = classifica em 3+ classes sem ordem, dá probabilidade por classe vs uma referência (caiu na GO).

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em GO (q2684 — multinomial/softmax) e MT (q3001 — linear múltipla + multicolinearidade). O Ianni cravou "cai regressão", mas furou o detalhe da multinomial — é onde eu reforço.

🎬 Caso prático — o Guilherme prevendo e classificando

Duas tarefas diferentes, duas regressões:

Tarefa do Guilherme	Saída	Tipo
"Prever o ICMS esperado (R$) do varejista a partir de faturamento, nº de funcionários, notas emitidas"	número contínuo (R$)	regressão LINEAR
"Classificar o contribuinte como 'regular' / 'indício' / 'alto risco' (3 classes, sem ordem) com probabilidade por classe"	categoria (1 de 3)	regressão LOGÍSTICA multinomial (softmax)

A sacada: apesar do nome "regressão", a logística CLASSIFICA (devolve categoria/probabilidade), não prevê número. Regressão linear = número · regressão logística = classe. A FCC adora essa pegadinha.

🧊 REGRESSÃO — caixa-mãe (decore)

Tipo	Prevê o quê	Como	Gatilho FCC
Linear (simples/múltipla)	número contínuo (R$, tempo)	reta de mínimos quadrados	"prever valor/quantidade", "variável dependente numérica"
Logística (binária)	categoria SIM/NÃO (2 classes)	sigmoide → probabilidade → limiar 0,5	"classificar em 2 grupos", "probabilidade de fraude"
Logística MULTINOMIAL (softmax)	categoria em 3+ classes sem ordem	função softmax → probabilidade por classe vs referência	"3 classes sem ordenação", "probabilidade por classe"

🔑 GATILHOS:

Prever NÚMERO → linear · classificar (SIM/NÃO) → logística binária · 3+ classes sem ordem + prob. por classe → multinomial/softmax.
Logística é CLASSIFICAÇÃO, não previsão de contínua (Ianni). É supervisionada.
Multicolinearidade = variáveis independentes muito correlacionadas entre si → atrapalha a linear múltipla (remédio = Ridge/Lasso, Bloco 5).

🎙️ O PLACAR DOS PROFESSORES — Regressão

Leitura do Camilo: o Ianni cravou "cai regressão" mas só nominou a binária — a GO cobrou a multinomial. Reforço esse buraco.

Prof	Apostou?	Veredito	O que disse (literal do dossiê)
Lucas Ianni (GO)	✅ forte	🎯 CRAVOU o tema	"tem que decorar uma de regressão, com certeza" — citou linear/Poisson/logística/séries [3:55:39]
Lucas Ianni (GO)	parcial	⚠️ furou o detalhe	"regressão logística NÃO prevê variável contínua — saída categórica via sigmoide + limiar 0,5" [2:27:26]; só nominou a binária, não a multinomial (q2684 era multinomial)
Felipe Mathias	✅	🎯 conceito	máxima verossimilhança → logística; mínimos quadrados → linear

A leitura do Camilo: o gancho seguro = logística = classificação (não prevê número). Mas grava a multinomial/softmax (3 classes, prob. por classe, categoria de referência) — o Ianni só tangenciou e foi exatamente o que a GO cobrou.

🎯 QUESTÃO REAL — a logística MULTINOMIAL (caiu na GO ✅)

🎯 Questão — teste agora

FCC — AFRE GO/SEFAZ GO 2026 · tec 3975962

1 toque = candidata · 2 toques = riscar (eliminei)

Um sistema de triagem de um órgão estadual classifica contribuintes em "regular", "indício" e "alto risco" com base em múltiplos indicadores fiscais, com categorias sem ordenação assumida e necessidade de probabilidades por classe. O modelo de regressão logística multinomial estimado no cenário descrito é

🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

Logística NÃO prevê número contínuo — ela classifica (categoria/probabilidade). "Regressão logística prevê o valor do ICMS" = falso.
Multinomial (sem ordem) × Ordinal (com ordem). "regular < indício < alto risco" forçando ordem = ordinal, não multinomial. A GO plantou isso (letra B).
Linear = mínimos quadrados / Logística = sigmoide (máxima verossimilhança). A FCC troca os mecanismos.
Multicolinearidade é restrita à regressão simples → FALSO (ela ataca a múltipla, que tem várias variáveis correlacionáveis). Caiu na q3001.
Correlação ≠ causalidade. "Correlação prova que funcionário causa ICMS" = erro clássico (q3001 letra C).

🎯 Bônus — regressão linear MÚLTIPLA + multicolinearidade (caiu na MT ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863455

1 toque = candidata · 2 toques = riscar (eliminei)

Um Fiscal de uma Secretaria da Fazenda está desenvolvendo um modelo para prever o ICMS esperado de empresas do setor varejista. Ele analisa variáveis como faturamento bruto, número de funcionários e volume de notas emitidas. Para garantir que o modelo seja robusto e resista a questionamentos técnicos, ele deve

🔗 CONEXÃO — não é ilha

Regressão é o carro-chefe do supervisionado (Bloco 1) e do para-brisa preditivo (Aula 0). Linear = prevê número (preditiva); logística = classifica.
Multicolinearidade é a deixa pro Lasso/Ridge (Bloco 5) — a regularização é o remédio.
Bordão da ponte: "prever o ICMS em R$ (número) = linear; cravar 'regular/indício/risco' (classe) = logística."

🧊 GUARDE NO BOLSO (Bloco 4)

Linear = número contínuo · Logística = CLASSIFICAÇÃO (sigmoide + limiar 0,5).
Multinomial/softmax = 3+ classes sem ordem, prob. por classe vs referência. (Com ordem = ordinal.)
🪤 Multicolinearidade ataca a múltipla (não a simples) · correlação ≠ causalidade.

➡️ Próximo (Bloco 5): o ponto-cego que SÓ o Mathias deu — Lasso × Ridge, as duas regularizações que combatem a multicolinearidade. Ponto de graça pra quem souber. Você vai ver qual delas zera variável e qual só encolhe.

Bloco 5 — LASSO (L1) × RIDGE (L2): o PONTO-CEGO 🔴

🎯 O que travar neste bloco (só isso):

Lasso (L1) ZERA coeficientes → SELECIONA variáveis.
Ridge (L2) só ENCOLHE coeficientes → NÃO zera (mantém todas).
Ambos combatem overfitting e aparecem com multicolinearidade (muitas variáveis correlacionadas).

🔴 PROBABILIDADE PRO CE: ALTA (mas é PONTO-CEGO). Caiu na SP (q3713). ⚠️ Sinal de aposta misto: caiu só na SP (1 prova) e só o Mathias dos professores deu — o Renato (prof do CE) não tocou. 🧭 Tradução do Camilo: é decoreba barata (2 frases) e ponto de graça pra quem souber. Não precisa drill pesado — mas grava as 2 frases, porque o concorrente vai deixar em branco.

🎬 Caso prático — o Guilherme com 27 variáveis demais

O Guilherme tem um modelo com 27 variáveis pra prever tempo de processamento de operações fiscais. Muitas são redundantes (correlacionadas — multicolinearidade). Ele quer enxugar:

Se usa Lasso (L1): o modelo zera as variáveis inúteis → sobra um conjunto menor e selecionado. ("Lasso laça e descarta o que não presta.")
Se usa Ridge (L2): o modelo encolhe todas as variáveis (puxa pra perto de zero) mas mantém todas → nenhuma some. ("Ridge aperta, mas não solta ninguém.")

🧠 Bizu da banca

Bizu de bolso: Lasso → Limpa (zera/seleciona). Ridge → Reduz (encolhe, não zera). L1 = Lasso = seLeciona; L2 = Ridge.

🧊 LASSO × RIDGE — caixa-mãe (decore as 2 frases)

	Lasso (L1)	Ridge (L2)
Penalização	L1 (módulo dos coeficientes)	L2 (quadrado dos coeficientes)
O que faz	ZERA coeficientes	só ENCOLHE (não zera)
Efeito	seleciona variáveis (elimina)	mantém todas, reduz magnitude
Bom quando	quer enxugar / poucas variáveis relevantes	multicolinearidade, manter todas

🔑 A REGRA DE OURO: Lasso ZERA e seleciona · Ridge ENCOLHE e mantém. Os dois combatem overfitting. (Existe ainda o Elastic Net = mistura L1+L2, mas a FCC fica nos dois.)

🎙️ O PLACAR DOS PROFESSORES — Lasso × Ridge

Leitura do Camilo: este é órfão pra todo mundo menos o Mathias. É onde eu te dou o que o curso do CE não dá.

Prof	Apostou?	Veredito	O que disse (literal do dossiê)
Felipe Mathias (SP)	✅	🎯 CRAVOU (q3713)	ÚNICO que deu o esqueleto: L1 (Lasso) zera/seleciona × L2 (Ridge) encolhe
Ianni / Emannuelle / Renato / Kessler / Léo	❌	⚪ não cobriu	ficaram no "ML genérico", não nomearam Lasso×Ridge — tema órfão pra eles

A leitura do Camilo: o Renato (prof do CE) NÃO ensina isso — então quem só faz o curso do CE chega em branco. Mas é 2 frases de decoreba: Lasso zera, Ridge encolhe. Ponto de graça pra quem dedicar 5 minutos. Eu te entreguei; o concorrente não vai ter.

🎯 QUESTÃO REAL — Lasso zera, Ridge encolhe (caiu na SP ✅)

🎯 Questão — teste agora

FCC — SEFAZ-SP 2026 · tec 3843010

1 toque = candidata · 2 toques = riscar (eliminei)

Durante uma auditoria de desempenho operacional, uma equipe pretende construir um modelo preditivo para explicar o tempo de processamento de operações fiscais (Y) a partir de 27 variáveis explicativas relacionadas a carga de trabalho, complexidade dos casos, perfil dos auditores e uso de sistemas internos. Como há suspeita de multicolinearidade elevada entre algumas variáveis, o auditor decide comparar dois métodos de regularização: Ridge e Lasso. Nesse contexto,

🔗 CONEXÃO — não é ilha

Lasso/Ridge são o remédio do overfitting (Bloco 3) e da multicolinearidade (Bloco 4) — penalizam a complexidade pro modelo generalizar.
Bordão da ponte: "27 variáveis demais no modelo do Guilherme? Lasso laça e joga fora as inúteis; Ridge aperta todas mas não demite ninguém."

🧊 GUARDE NO BOLSO (Bloco 5)

Lasso (L1) ZERA → seleciona variáveis · Ridge (L2) ENCOLHE → mantém todas.
Bizu: Lasso Limpa · Ridge Reduz.
Aparecem com multicolinearidade e combatem overfitting.
🪤 A FCC inverte o par (foi a letra C). Decora certo.

➡️ Próximo (Bloco 6): antes de QUALQUER modelo, vem a faxina — o pré-processamento (a fase de preparação do CRISP-DM). Regex, imputação, normalização, outliers. E a regra de ouro que decide a questão: NUNCA excluir registro só porque falta um dado.

Bloco 6 — PRÉ-PROCESSAMENTO (a faxina antes do modelo 🔴)

🎯 O que travar neste bloco (só isso):

Limpeza: regex padroniza formatos (CNPJ, datas, R$) · normalização de texto (caixa baixa, tira espaço) elimina duplicata categórica ("Simples Nacional" = "SIMPLES NACIONAL").
Imputação (dado faltante): média/mediana/KNN por análise contextual — NUNCA excluir o registro só por faltar um dado.
Normalização numérica: min-max (escala 0–1) × z-score (média 0, desvio 1).
Outliers: analisar (legítimo × erro) antes de remover — não apaga automático.

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em MT (q2999 — estatística robusta p/ outliers) e SP (q3716 — limpeza completa). O Renato crava o tema. A FCC dá um enunciado-cenário GIGANTE (CNPJ bagunçado, datas, outliers) e a certa é a abrangente e criteriosa.

🎬 Caso prático — a base imunda que chegou pro Guilherme

O Guilherme recebe 2,3 milhões de declarações e a base é um lixo:

Problema na base	A faxina certa
CNPJ uns com ponto, outros sem	regex padroniza o formato
Valor com vírgula E ponto decimal	regex unifica
Datas em DD/MM/AAAA e AAAA-MM-DD	regex padroniza
12% dos campos vazios	imputação (média/mediana/KNN) contextual — ou exclui só se crítico
Outliers de receita	analisar (legítimo × erro) ANTES de mexer
"Simples Nacional" / "SIMPLES NACIONAL" / "Simples nacional"	normalizar texto (caixa baixa) → vira 1 categoria só

🚨 A regra de OURO (a que decide a questão): NUNCA exclua um registro só porque falta um campo. Jogar fora o contribuinte porque faltou 1 dado introduz viés e perde informação. A FCC planta "excluir registros vazios" como a pior opção — é sempre distrator.

🧊 PRÉ-PROCESSAMENTO — caixa-mãe (decore)

Etapa	Ferramenta	Cuidado
Padronizar formato	regex (expressão regular)	CNPJ, data, R$
Limpar texto	caixa baixa, tira espaço/acento	mata duplicata categórica
Dado faltante (imputação)	média / mediana / KNN (contextual)	⚠️ NÃO excluir o registro por padrão
Normalização numérica	min-max (0–1) · z-score (média 0, dp 1)	escala, pra modelo não privilegiar variável grande
Outliers	analisar legítimo × erro	NÃO remover automático

🔑 GATILHOS:

Enunciado-cenário gigante + "melhores práticas" → marca a alternativa abrangente e criteriosa (regex + imputação contextual + análise de outliers).
Excluir registro por dado ausente = SEMPRE a pior opção.
Mediana + IQR = robustos a outliers (melhor que média+desvio em distribuição assimétrica).

🎙️ O PLACAR DOS PROFESSORES — Pré-processamento

Prof	Apostou?	Veredito	O que disse (literal do dossiê)
Renato da Costa (CE)	✅	🎯 CRAVOU (q3716)	"normalização (estruturado, min-max/z-score) × tokenização (texto); merge-purge = dedup; tratamento de nulos/outliers"
Felipe Mathias (SP)	✅	🎯 CRAVOU (q3716)	cobriu pré-processamento na grade SP
Emannuelle Gouveia	✅	🎯 CRAVOU (q3716)	pré-proc na grade SP

A leitura do Camilo: consenso total — o Renato (prof do CE) é firme aqui. O segredo é o enunciado-cansaço: a FCC enche de problema (CNPJ, datas, outliers) e a certa é a mais completa e criteriosa. Risque a que "exclui registro" ou a que "remove outlier automático".

🎯 QUESTÃO REAL — a faxina completa (caiu na SP ✅)

🎯 Questão — teste agora

FCC — SEFAZ-SP 2026 · tec 3847053

1 toque = candidata · 2 toques = riscar (eliminei)

Uma Secretaria da Fazenda Estadual recebeu uma base de dados contendo 2,3 milhões de registros de declarações fiscais para análise de conformidade tributária. Durante a fase de exploração inicial, a equipe técnica identificou diversos problemas: campos de CNPJ com formatações inconsistentes (alguns com pontuação, outros sem), valores monetários registrados com separadores decimais divergentes (vírgula e ponto), datas em formatos distintos (DD/MM/AAAA, AAAA-MM-DD), campos obrigatórios vazios em aproximadamente 12% dos registros, e a presença de valores extremos de receita bruta (outliers) que distorciam as análises estatísticas. Além disso, a variável "regime tributário" apresentava categorias redundantes devido a erros de digitação (ex: "Simples Nacional", "SIMPLES NACIONAL", "Simples nacional"). Para viabilizar a análise de risco fiscal e a construção de modelos preditivos, tornou-se necessário aplicar técnicas sistemáticas de preparação dos dados antes do processamento analítico. Considerando as melhores práticas de pré-processamento de dados, o tratamento correto e adequado para essa situação é

🎯 Reforço — mediana + IQR contra outliers (caiu na MT ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863449

1 toque = candidata · 2 toques = riscar (eliminei)

Ao analisar grandes volumes de notas fiscais eletrônicas para apoio à fiscalização estadual, uma equipe de TI aplica estatística descritiva para compreender o comportamento dos valores declarados por contribuintes, considerando distribuições assimétricas, presença de valores extremos e necessidade de subsidiar modelos de inteligência artificial. A aplicação tecnicamente adequada das medidas de tendência central e de dispersão nesse cenário ocorre quando se

🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

"Excluir registro por dado ausente" = SEMPRE errado (perde info, vicia a amostra). É a armadilha-rei (q3716 letra C).
"Remover outlier automaticamente" = errado — analisar legítimo × erro primeiro (um faturamento alto pode ser real).
Mediana + IQR = robustos (assimetria/outliers) · média + desvio = sensíveis. A FCC inverte.
Não confunda normalização de ML (min-max/z-score, escala numérica) com normalização de BD (1FN/2FN/3FN, decompor tabela — Aula 3). A FCC adora cruzar.
Ferramenta certa pro problema certo: regex (formato) · texto-baixo (duplicata categórica) · stemming/tokenização (texto livre/NLP) · interpolação/forward fill (série temporal). Trocar = distrator.

🔗 CONEXÃO — não é ilha

Pré-processamento É a fase de Preparação dos Dados (Data Preparation) do CRISP-DM (Aula 1) — vem depois de entender o negócio/dados e antes da modelagem. Você limpa o dado antes de treinar.
O dado bruto vem do Data Lake (Aula 2) e da NF-e XML (Aula 0) — limpar é o que transforma o lago bagunçado em insumo de modelo.
Bordão da ponte: "antes de treinar o modelo do Guilherme, a base imunda passa pela faxina — e faxina não é jogar o contribuinte fora porque faltou um campo."

🧊 GUARDE NO BOLSO (Bloco 6)

Faxina: regex (formato) · texto-baixo (duplicata) · imputação média/mediana/KNN (contextual) · normalização min-max(0–1)/z-score · outliers (analisar antes).
NUNCA excluir registro só por dado faltante (a armadilha-rei).
Assimétrica/outliers → mediana + IQR (robustos).
🪤 Normalização de ML (escala) ≠ normalização de BD (formas normais).

➡️ Próximo (Bloco 7): agora os algoritmos por nome — você não precisa saber COMO funcionam, só reconhecer Random Forest, Isolation Forest, KNN×K-means e SVM pelo cenário. Pílulas rápidas de reconhecimento.

Bloco 7 — ALGORITMOS POR NOME (reconhecimento 🟠)

🎯 O que travar neste bloco (só isso):

Random Forest = ensemble de árvores → REDUZ VARIÂNCIA (combate overfit).
Isolation Forest = anomalia sem rótulo → ponto isolado tem menor profundidade média / maior escore.
KNN (supervisionado) ≠ K-means (não-supervisionado) — a pegadinha-rei.
SVM = classificação (fronteira/margem) · Árvore de decisão = regras hierárquicas.

🟠 PROBABILIDADE PRO CE: MÉDIA-ALTA. Caiu em MT (3 q: q2929, q2995, q2998). O Ianni cravou que basta reconhecer pelo nome. Não precisa drill pesado — é reconhecer o cenário e cravar o nome.

🧊 ALGORITMOS — caixa-mãe (decore o gatilho, não o como)

Algoritmo	Tipo	O que faz	Gatilho FCC
Random Forest	supervisionado (ensemble)	junta muitas árvores → reduz variância, robusto a ruído	"reduzir variância", "agregação de árvores", "não linear com ruído"
Isolation Forest	não-supervisionado (anomalia)	isola pontos; anômalo = menos partições → menor profundidade → maior escore	"detectar anomalia sem rótulo", "ponto atípico"
KNN (k vizinhos)	supervisionado	classifica pelo voto dos K vizinhos mais próximos	"classificar com base nos vizinhos", "rótulo"
K-means	não-supervisionado	agrupa por centroide (Bloco 2)	"agrupar sem rótulo"
SVM	supervisionado	acha a fronteira/margem que separa classes	"separar classes", "hiperplano/margem"
Árvore de decisão	supervisionado	regras se-então hierárquicas	"regras hierárquicas de classificação"

🔑 A PEGADINHA-REI: KNN é SUPERVISIONADO (tem rótulo, classifica) · K-means é NÃO-supervisionado (sem rótulo, agrupa). Nomes parecidos, mundos opostos. A FCC junta os dois na mesma questão (q2929).

🎙️ O PLACAR DOS PROFESSORES — Algoritmos

Prof	Veredito	O que disse (literal)
Lucas Ianni	🎯 CRAVOU (q2929)	"para concursos não precisa saber COMO funcionam, precisa saber o NOME deles" [02:00:34] · KNN ≠ K-means (KNN sup, K-means não) [2:45:48]
Lucas Ianni (GO)	🎯 conceito (q2995/2998)	citou árvore, random forest, regressão logística, anomalia/Isolation no bloco de fraude
Thiago Cavalcanti (MT)	🎯 conceito	over/underfit, k-means, KNN, SVM (contexto FGV)

A leitura do Camilo: o Ianni acertou o approach — decora o nome e a categoria, não o algoritmo por dentro. É o jeito mais econômico de pegar esses pontos.

🎯 QUESTÃO REAL — exemplo de NÃO-supervisionado (caiu na MT ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863303

1 toque = candidata · 2 toques = riscar (eliminei)

Dentre as técnicas de Machine Learning, constitui um exemplo de aprendizado não supervisionado

🎯 Reforço — Isolation Forest (anomalia, caiu na MT ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863440

1 toque = candidata · 2 toques = riscar (eliminei)

Considerando a aplicação de Isolation Forest para identificar contribuintes com comportamento atípico em dados sem rótulos de fraude, com variáveis contínuas e distribuição assimétrica, o princípio técnico que fundamenta corretamente a detecção de anomalias no cenário descrito é:

🎯 Reforço — Random Forest reduz variância (caiu na MT ✅)

🎯 Questão — teste agora

FCC — SEFAZ-MT 2026 · tec 3863448

1 toque = candidata · 2 toques = riscar (eliminei)

Uma SEFAZ faz a análise de milhões de notas fiscais eletrônicas com relações não lineares, presença de ruído e necessidade de reduzir autuações indevidas decorrentes de variância do modelo. Nesse cenário, o algoritmo adequado para ser utilizado é

🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

KNN (supervisionado) × K-means (não-supervisionado) — a pegadinha-rei. Nomes parecidos, categorias opostas.
Random Forest REDUZ variância (ensemble). Se a banca disser "aumenta variância" → falso.
Isolation Forest = anomalia sem rótulo (não-sup), por isolamento (não por densidade, não por centroide).
SVM e árvore são supervisionados. Só K-means e Isolation Forest (deste bloco) são não-sup.
"Sem controle de profundidade / maximizar ajuste" = receita de overfit — distrator clássico (q2998 letra A).

🔗 CONEXÃO — não é ilha

Random Forest reduz variância = combate overfitting (Bloco 3). Isolation Forest é anomalia = aplicação do não-supervisionado (Bloco 1), irmã da clusterização.
KNN×K-means fecha o gatilho do Bloco 1 (rótulo decide).
Bordão da ponte: "pra caçar a NF-e atípica da DABOA sem rótulo, Isolation Forest; pra um modelo robusto a ruído, Random Forest (muitas árvores votando)."

🧊 GUARDE NO BOLSO (Bloco 7)

Random Forest = ensemble → reduz variância. Isolation Forest = anomalia sem rótulo (menor profundidade = anômalo).
KNN = supervisionado · K-means = não-supervisionado (a pegadinha-rei).
SVM = fronteira/margem · árvore = regras se-então.
Reconhece pelo gatilho do cenário, não decora o "como".

➡️ Próximo (Bloco 8): o buraco órfão da GO — Deep Learning, redes neurais e o framework PyTorch que ninguém destilou. É o ponto que o concorrente larga em branco.

Bloco 8 — DEEP LEARNING / REDES NEURAIS / PyTorch 🔴 (o buraco órfão)

🎯 O que travar neste bloco (só isso):

Hierarquia (boneca russa): IA ⊃ ML ⊃ Aprendizado de Representação ⊃ Deep Learning.
Deep Learning = subárea de ML com redes neurais profundas (muitas camadas). NÃO é "paradigma de aprendizado".
PyTorch = grafo dinâmico (define-by-run) + autograd (define na execução) × TensorFlow = grafo estático (define antes).

🔴 PROBABILIDADE PRO CE: ALTA (buraco real). Caiu na GO (q2751 — PyTorch). ⚠️ O conceito de DL todos deram, mas o framework PyTorch foi ÓRFÃO — ninguém destilou. É exatamente onde eu te dou o que faltou.

🎬 Caso prático — a boneca russa do Guilherme

Pra entender o tamanho de cada coisa, pensa em bonecas russas (uma dentro da outra):

🪆 IA (a maior) = qualquer máquina que "imita inteligência".
🪆 ML (dentro) = a IA que aprende dos dados (não é regra fixa).
🪆 Aprendizado de Representação (mais dentro) = o ML que aprende sozinho quais atributos importam.
🪆 Deep Learning (a menor) = redes neurais profundas (muitas camadas) que aprendem a relevância dos atributos.

E o PyTorch é a ferramenta (framework Python) que o cientista usa pra montar essas redes. TensorFlow é a ferramenta concorrente do Google.

🧊 DEEP LEARNING & FRAMEWORKS — caixa-mãe

Conceito	O que é
Hierarquia	IA ⊃ ML ⊃ Aprend. de Representação ⊃ Deep Learning
Deep Learning	subárea de ML com redes neurais profundas (várias camadas ocultas)
Rede neural	perceptron → MLP → CNN (imagem) → RNN (sequência) → Transformers (texto/LLM)
PyTorch	grafo DINÂMICO (define-by-run) + autograd — monta na execução, fácil de depurar
TensorFlow	clássico = grafo ESTÁTICO (define o grafo antes de rodar)

🔑 GATILHOS:

"grafo dinâmico / define-by-run / ajusta em tempo de execução / autograd" → PyTorch.
"grafo definido antes da execução" → TensorFlow (clássico).
DL NÃO é paradigma (paradigmas são sup/não-sup/reforço) — é subcategoria de redes multicamada (Thiago).

🎙️ O PLACAR DOS PROFESSORES — Deep Learning / PyTorch

Leitura do Camilo: o conceito de DL todos deram; o framework foi órfão. É aqui que eu tapo o buraco.

Prof	Veredito	O que disse (literal)
Lucas Ianni (GO-RF)	🎯 conceito DL / ❌ furou PyTorch	"deep learning = subárea de ML que usa redes neurais profundas para aprender a relevância dos atributos" [01:32:28]; boneca russa IA⊃ML⊃DL
Thiago Cavalcanti (MT)	🎯 conceito	"DL não é paradigma de aprendizado, é subcategoria de redes multicamada" [04:10:33]
TODOS	❌ ÓRFÃO	ninguém cravou frameworks (PyTorch/TensorFlow) — e foi o que caiu na GO

A leitura do Camilo: o PyTorch foi órfão na GO — nenhum professor de reta final entregou. Decoreba certeira (2 frases): PyTorch = dinâmico (define-by-run) + autograd · TensorFlow = estático. Ponto de graça pra quem souber a diferença.

🎯 QUESTÃO REAL — PyTorch define-by-run (caiu na GO ✅)

🎯 Questão — teste agora

FCC — AFRE GO/SEFAZ GO 2026 · tec 3975956

1 toque = candidata · 2 toques = riscar (eliminei)

Considerando uma equipe que prototipa redes neurais em Python e precisa depurar o fluxo de gradientes durante experimentos, ajustando dinamicamente o caminho computacional conforme condições em tempo de execução, a característica do PyTorch que atende ao cenário é

🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

PyTorch = dinâmico (define-by-run) · TensorFlow = estático (grafo antes). A FCC troca os dois (foi a letra C da GO).
DL NÃO é paradigma de aprendizado — é subcategoria (redes profundas). Paradigmas são sup/não-sup/reforço.
Boneca russa: IA ⊃ ML ⊃ Repr. ⊃ DL. Se inverterem (ML dentro de DL) → falso.
(nível hard CE — Simulado TI): transformers — encoder (BERT) = bidirecional/classificação · decoder-only (GPT) = generativo autorregressivo · encoder-decoder (T5) = tradução. Pegadinha: "decoder é bidirecional" = falso (bidirecional é o encoder).

🔗 CONEXÃO — não é ilha

Deep Learning é o motor do para-brisa (Big Data/preditivo, Aula 0) — redes profundas para padrões complexos.
PyTorch roda em Python (Aula 7) — o framework é onde o código vira modelo.
Bordão da ponte: "IA é a boneca grande, DL é a menorzinha lá dentro; e o PyTorch (dinâmico) é a ferramenta com que o cientista monta a rede na hora."

🧊 GUARDE NO BOLSO (Bloco 8)

IA ⊃ ML ⊃ Aprend. de Representação ⊃ Deep Learning.
DL = redes neurais profundas (não é "paradigma").
PyTorch = dinâmico (define-by-run) + autograd · TensorFlow = estático.
🪤 transformers: encoder=BERT(bidirecional) · decoder=GPT(generativo) · T5(tradução).

➡️ Próximo (Bloco 9): como você sabe se o modelo é bom? As métricas — matriz de confusão, precisão × recall, erro tipo I × II. Pílula rápida com o vocabulário que a FCC cobra.

Bloco 9 — MÉTRICAS DE AVALIAÇÃO 🟡 (pílula)

🎯 O que travar neste bloco (só isso):

Matriz de confusão: VP/VN (acertos) × FP/FN (erros).
Erro tipo I = Falso Positivo (acusou inocente) · Erro tipo II = Falso Negativo (deixou o culpado passar).
Precisão = dos que acusei, quantos eram fraude · Recall (revocação) = das fraudes reais, quantas peguei.

🟡 PROBABILIDADE PRO CE: MÉDIA. Não caiu como questão pura nas 3 (2026), mas é vocabulário-base que o Ianni martelou e pode aparecer embutido. Pílula de blindagem.

🧊 MÉTRICAS — caixa-mãe (decore o fiscal)

Termo	O que é	No Fisco (DABOA)
Verdadeiro Positivo (VP)	acusei fraude e ERA fraude	autuação certeira
Falso Positivo (FP) = Erro tipo I	acusei fraude mas NÃO era	autuou o inocente (gera recurso)
Falso Negativo (FN) = Erro tipo II	NÃO acusei mas ERA fraude	a DABOA escapou
Precisão	VP / (VP+FP) — dos acusados, quantos certos	"quão confiável é minha autuação"
Recall (revocação)	VP / (VP+FN) — das fraudes reais, quantas peguei	"quantas fraudes eu não deixei passar"

🔑 GATILHOS:

Erro tipo I = Falso Positivo (acusou inocente) · tipo II = Falso Negativo (deixou escapar).
Precisão = dos que acusei · Recall = das fraudes reais. (F1 = média harmônica das duas.)

🎙️ O PLACAR — Métricas

Leitura do Camilo: o Ianni cobriu matriz de confusão, precisão/recall/F1, erro tipo I/II na aula do MT — "vale 100% pro CE, TI é nacional" [85]. Não caiu puro em 2026, mas é vocabulário que sustenta as questões de classificação. Blindagem barata: decora os pares e segue.

⚖️ NOTA DE HONESTIDADE (anti-invenção): este bloco não traz badge de questão FCC porque, conferido no banco, métricas não caíram como questão dedicada nas 3 provas fiscais 2026 (MT/GO/SP). É vocabulário-base (aparece embutido em classificação). Por isso o selo é 🟡 blindagem — decora os pares (tipo I = FP, tipo II = FN; precisão × recall) em 10 min e segue. Não martela.

🪤 PEGADINHAS

Erro tipo I (FP) × tipo II (FN) — a FCC troca. Bizu: I = acusou à toa (1 acusação errada) · II = deixou passar.
Precisão ≠ Recall. Precisão olha os acusados; recall olha as fraudes reais. Confundir = erro clássico.
Acurácia engana com dados desbalanceados (se 99% são regulares, "chutar tudo regular" dá 99% de acurácia mas pega 0 fraude — por isso usa-se precisão/recall).

🧊 GUARDE NO BOLSO (Bloco 9)

Tipo I = Falso Positivo (acusou inocente) · Tipo II = Falso Negativo (deixou escapar).
Precisão = dos acusados · Recall = das fraudes reais · F1 = média harmônica.
🪤 Acurácia engana em base desbalanceada.

➡️ Próximo (Bloco 10): a pílula final — NLP (texto), que não caiu puro mas o edital cita. Rapidinho e fechamos o ouro.

Bloco 10 — NLP (Processamento de Linguagem Natural) 🟢 (pílula curta)

🎯 O que travar (só isso):

NLP/PLN = a IA que lê/interpreta texto (linguagem natural) — classifica, resume, extrai.
Pré-processamento de texto: tokenização (quebra em pedaços) · stemming/lematização (reduz à raiz) · stop words (remove "de/a/o").

🟢 PROBABILIDADE PRO CE: BAIXA-MÉDIA. ❌ Não caiu puro nas 3 (2026) — só como distrator/contexto. Mas o edital CE cita ML/IA/NLP. Pílula — não é alvo de drill.

🧊 NLP — caixa-mãe (rápido)

Termo	O que é
NLP / PLN	IA que processa linguagem natural (texto/fala) — classifica, resume, traduz
Tokenização	quebra o texto em tokens (palavras/pedaços)
Stemming	corta a palavra na raiz bruta ("fiscalização" → "fiscaliz")
Lematização	reduz ao lema correto ("foi" → "ser")
Stop words	remove palavras vazias ("de", "a", "o")
LLM	modelo de linguagem grande (GPT) — "especializado em processamento e compreensão de linguagem natural" (TRF-4 FCC)

🔑 Gatilho: texto livre / linguagem natural → NLP. Tokenização/stemming = ferramenta de texto (não use em campo categórico — pegadinha do pré-processamento, Bloco 6).

🎙️ O PLACAR — NLP

Leitura do Camilo: o Renato planta NLP (LLM, TRF-4 2025), o Thiago dá stemming/lematização/stop words. ❌ Não caiu puro em 2026. É tema "em alta" mas de baixo retorno imediato.

⚖️ NOTA DE HONESTIDADE (anti-invenção): sem badge de questão — NLP não caiu como questão dedicada nas 3 provas fiscais 2026; apareceu só embutido (tokenização em SP-3716, "texto livre" em MT-3006). Selo 🟢 blindagem — leia a tabela em 5 min, conheça o vocabulário, e não invista drill. Se a FCC homenagear o edital, você reconhece os termos.

🔗 CONEXÃO: NLP processa o dado não-estruturado (texto/PDF, Aula 0) — o "garimpo" do auto de infração escaneado. A tokenização é etapa de pré-processamento de texto (Bloco 6).

🧊 GUARDE NO BOLSO (Bloco 10): NLP = IA de texto (classifica/resume) · tokenização/stemming/lematização/stop words = faxina de texto · LLM = modelo de linguagem (GPT). 🟢 baixo retorno — pílula.

Bloco 11 — 🎓 FECHO + PLANO DE ATAQUE + DRILL

Para tudo e respira, Felício. 🫁 Você acabou de subir a montanha. Esta era a aula que define a aprovação — o bloco que te eliminou no SEFA-PA agora é um punhado de gatilhos que você desenha de olho fechado. Antes de fechar, guarda o ouro no bolso e pega a ordem exata de ataque.

📦 O QUE LEVAR NO BOLSO (o ML inteiro num cartão)

A TABELA-MÃE DO BLOCO D (cola no espelho):

Tema O gatilho/macete 🔑 Bordão

Sup × Não-sup "sem rótulo → não-sup → cluster" "rótulo decide tudo"

Clusterização K-means (K antes, sensível a outlier) · K-means++ (inércia) · hierárquica Ward+euclidiana² (dendrograma) "menor inércia = K-means++; hierárquico = Ward"

Over/Underfit viés↑=underfit (treina mal) · variância↑=overfit (treina bem, testa mal) "gênio no treino, burro na prova = overfit"

Regressão linear=número · logística=classifica (sigmoide) · multinomial=prob. por classe sem ordem "logística classifica, não prevê número"

Lasso × Ridge Lasso (L1) ZERA/seleciona · Ridge (L2) ENCOLHE "L=Limpa · R=Reduz"

Pré-proc regex/imputação contextual/normalização/outlier-analisar "NUNCA excluir registro por dado faltante"

Algoritmos RF=reduz variância · Isolation=anomalia · KNN(sup)≠K-means(não-sup) · SVM=fronteira "reconhece pelo nome, não pelo como"

Deep/PyTorch IA⊃ML⊃DL · PyTorch=dinâmico · TensorFlow=estático "PyTorch monta na hora (define-by-run)"

Métricas tipo I=FP · tipo II=FN · precisão×recall "I acusa à toa, II deixa escapar"

Tema	O gatilho/macete	🔑 Bordão
Sup × Não-sup	"sem rótulo → não-sup → cluster"	"rótulo decide tudo"
Clusterização	K-means (K antes, sensível a outlier) · K-means++ (inércia) · hierárquica Ward+euclidiana² (dendrograma)	"menor inércia = K-means++; hierárquico = Ward"
Over/Underfit	viés↑=underfit (treina mal) · variância↑=overfit (treina bem, testa mal)	"gênio no treino, burro na prova = overfit"
Regressão	linear=número · logística=classifica (sigmoide) · multinomial=prob. por classe sem ordem	"logística classifica, não prevê número"
Lasso × Ridge	Lasso (L1) ZERA/seleciona · Ridge (L2) ENCOLHE	"L=Limpa · R=Reduz"
Pré-proc	regex/imputação contextual/normalização/outlier-analisar	"NUNCA excluir registro por dado faltante"
Algoritmos	RF=reduz variância · Isolation=anomalia · KNN(sup)≠K-means(não-sup) · SVM=fronteira	"reconhece pelo nome, não pelo como"
Deep/PyTorch	IA⊃ML⊃DL · PyTorch=dinâmico · TensorFlow=estático	"PyTorch monta na hora (define-by-run)"
Métricas	tipo I=FP · tipo II=FN · precisão×recall	"I acusa à toa, II deixa escapar"

🎯 PLANO DE ATAQUE 80/20 (a ORDEM, não a lista)

Você não vai gabaritar ML — vai pegar os campeões que repetem e furar o corte. A ordem é por ROI:

1️⃣ DOMINA os 4 que caem nas 3 provas (o coração) ⚡

🔴 Sup×não-sup · clusterização · over/underfit · pré-processamento. Caíram em MT+GO+SP. São os mais prováveis no CE. Decora os gatilhos: "sem rótulo=cluster", "menor inércia=K-means++", "treino bom/teste ruim=overfit", "nunca exclua registro". Aqui está a maioria dos pontos.

2️⃣ FECHA os 2 pontos-cegos (de graça pra quem souber) 🎯

🔴 Lasso×Ridge (só o Mathias deu) e PyTorch (órfão da GO). São 2 frases cada: "Lasso zera, Ridge encolhe" e "PyTorch dinâmico, TensorFlow estático". O concorrente deixa em branco; você pega.

3️⃣ RECONHECE o resto (pílula, sem drill pesado) 🟠

Regressão multinomial (reforça que o Ianni furou) · algoritmos por nome (RF/Isolation/KNN×K-means) · métricas (tipo I/II, precisão/recall) · DL/transformers · NLP 🟢. Lê os gatilhos, não martela.

🧭 Bordão do plano: ML não se programa — se reconhece. Trava os 4 campeões + os 2 pontos-cegos e o corte da Fluência vira passado.

🎙️ O lembrete final (honestidade temporal)

O CE ainda NÃO aconteceu (prova 01-02/08/2026) — tudo aqui é aposta 🔮, calibrada pelo que JÁ CAIU ✅ em GO/SP/MT 2026.

Tema Já caiu? Pro CE

Sup × não-sup ✅ MT(2)·SP·base GO 🔴 ALTA

Clusterização ✅ MT·GO·SP (3 provas) 🔴 ALTA (campeão)

Over/underfit + train/val/test ✅ MT(2)·SP 🔴 ALTA

Regressão (multinomial) ✅ GO·MT 🔴 ALTA

Lasso × Ridge ✅ SP (só Mathias deu) 🔴 ALTA (ponto-cego)

Pré-processamento ✅ MT·SP 🔴 ALTA

Algoritmos (RF/Isolation/KNN/SVM) ✅ MT(3) 🟠 MÉDIA-ALTA

Deep Learning / PyTorch ✅ GO (órfão) 🔴 ALTA (buraco)

Métricas / NLP ❌ não puro 🟡/🟢 blindagem

Tema	Já caiu?	Pro CE
Sup × não-sup	✅ MT(2)·SP·base GO	🔴 ALTA
Clusterização	✅ MT·GO·SP (3 provas)	🔴 ALTA (campeão)
Over/underfit + train/val/test	✅ MT(2)·SP	🔴 ALTA
Regressão (multinomial)	✅ GO·MT	🔴 ALTA
Lasso × Ridge	✅ SP (só Mathias deu)	🔴 ALTA (ponto-cego)
Pré-processamento	✅ MT·SP	🔴 ALTA
Algoritmos (RF/Isolation/KNN/SVM)	✅ MT(3)	🟠 MÉDIA-ALTA
Deep Learning / PyTorch	✅ GO (órfão)	🔴 ALTA (buraco)
Métricas / NLP	❌ não puro	🟡/🟢 blindagem

O professor de TI aqui é o Camilo. O Ianni e o Mathias têm faro de ouro — eu peso o que mostraram —, mas eu te disse onde o Ianni furou (PyTorch, multinomial) e onde só o Mathias entregou (Lasso×Ridge). Você não decora cursinho — você lê o gatilho do cenário e crava a técnica.

🔑 Bordão-mestre da Aula 04: na FCC, ML é RECONHECIMENTO — sem rótulo = cluster, treino-bom-teste-ruim = overfit, Lasso zera, Ridge encolhe. Quem lê o gatilho não decora ML — deduz.

🧭 PRÓXIMA PARADA — Aula 05: Governança & Ética de Dados.

Você já sabe construir o modelo. Na Aula 05 a gente vê como governá-lo com responsabilidade — qualidade de dados, os modelos de governança (colegiada/federada — caiu na SP!), e o par que a FCC ama confundir: viés algorítmico × alucinação da IA generativa. É o ouro de baixa concorrência. Te espero lá. 🪜

🎯 HORA DE RESOLVER — Drill da Aula 04

🔵 Bate o olho e resolve as que você já sabe · 🔴 Corrige com calma as que travar. Todas FCC, conferidas no banco. As primeiras são os campeões (sup×não-sup, cluster, overfit, pré-proc) — o que mais cai; depois os pontos-cegos (Lasso/Ridge, PyTorch) e os algoritmos por nome.

🎯 Questões pra resolver

👆 Marque a sua (1 toque) · risque as eliminadas (2 toques) · Conferir mostra o gabarito. A resolução comentada abre no TEC.

Questão 1 (FCC · SEFAZ-MT · 2026 · tec 3863442)

Questão 2 (FCC · SEFAZ-MT · 2026 · tec 3863303)

Dentre as técnicas de Machine Learning, constitui um exemplo de aprendizado não supervisionado

Questão 3 (FCC · SEFAZ-MT · 2026 · tec 3863434)

Questão 4 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975961)

Uma Secretaria Estadual analisa contribuintes do ICMS com variáveis numéricas contínuas padronizadas (faturamento, variação intermensal, frequência de
retificações e uso de créditos), sem conhecimento prévio do número de grupos, e deseja obter uma estrutura hierárquica interpretável para priorização de auditorias. A
combinação técnica que atende ao cenário descrito é

Questão 5 (FCC · SEFAZ-SP · 2026 · tec 3847058)

Uma Secretaria da Fazenda Estadual precisa analisar 500 mil declarações fiscais para identificar contribuintes com comportamento tributário similar, sem ter exemplos prévios de classificação. A equipe técnica deve agrupar as empresas considerando apenas as características declaradas (receita, despesas, setor, localização) e descobrir padrões naturais nos dados. A técnica mais adequada para essa tarefa é:

Questão 6 (FCC · SEFAZ-MT · 2026 · tec 3863304)

Questão 7 (FCC · SEFAZ-MT · 2026 · tec 3863445)

Um classificador de risco de inadimplência foi treinado com histórico fiscal, que apresenta desempenho elevado no treino e queda consistente em dados novos, mesmo com validação adequada. O fenômeno técnico caracterizado no cenário descrito é

Questão 8 (FCC · SEFAZ-SP · 2026 · tec 3843227)

Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é

Questão 9 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975962)

Um sistema de triagem de um órgão estadual classifica contribuintes em “regular”, “indício” e “alto risco” com base em múltiplos indicadores fiscais, com categorias
sem ordenação assumida e necessidade de probabilidades por classe. O modelo de regressão logística multinomial estimado no cenário descrito é

Questão 10 (FCC · SEFAZ-MT · 2026 · tec 3863455)

Questão 11 (FCC · SEFAZ-SP · 2026 · tec 3843010)

Questão 12 (FCC · SEFAZ-SP · 2026 · tec 3847053)

Questão 13 (FCC · SEFAZ-MT · 2026 · tec 3863449)

Questão 14 (FCC · SEFAZ-MT · 2026 · tec 3863440)

Questão 15 (FCC · SEFAZ-MT · 2026 · tec 3863448)

Uma SEFAZ faz a análise de milhões de notas fiscais eletrônicas com relações não lineares, presença de ruído e necessidade de reduzir autuações indevidas decorrentes de variância do modelo. Nesse cenário, o algoritmo adequado para ser utilizado é

Questão 16 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975956)

Considerando uma equipe de ciência de dados da Secretaria da Economia Estadual que prototipa redes neurais em Python e precisa depurar o fluxo de gradientes
durante experimentos com dados fiscais, ajustando dinamicamente o caminho computacional conforme condições em tempo de execução, a característica do PyTorch que
atende diretamente ao cenário descrito é

Última atualização: 22/06/2026 12:09 — Camilo

Camilo · Projeto Auditor · modo interativo