Aula 04 — Machine Learning & IA: o OURO MÁXIMO da Fluência (onde a vaga se decide)

🎙️ Sou o Camilo, teu professor de TI. Chegamos ao coração da prova nova. Se a Fluência te eliminou no SEFA-PA, foi aqui que o sangue escorreu — a FCC virou cientista de dados e este bloco virou o fiel da balança. Pega FIRME, Felício: esta é a aula mais importante da série inteira. A gente vai por ROI, atacando o que cai nas 3 provas primeiro. Senta que o caldo é grosso e é onde você vira o jogo.


🩸 Por que ESTA aula vale ouro (a mais importante de todas)


🏅 Depoimento de aprovado

Gabriel Santana — 1º lugar SEFAZ-GO 2026 (banca FCC). (GO-2026 é o espelho do edital do CE — mesma banca, edital reciclado.) 🔗 Fonte: live LS Concursos c/ Prof. Lucas Eduardo · DEPOIMENTOS_APROVADOS.md (depoimento #1)

🪞 E não precisa ser nerd: o Hueliton Fontes (26º SEFAZ-AP, 42 anos, ex-militar) tinha "verdadeiro pavor de TI" e fez 80% mirando os tópicos mais prováveis. (DEPOIMENTOS_APROVADOS.md, dep. #11.) Tradução: 42 anos, militar, do zero, 80% — esse é você. ML parece monstro, mas é um punhado de gatilhos que cabem num cartão de bolso.


🗺️ MINI-MAPA DA SÉRIE — onde mora o OURO

Aula Tema 💰 Onde está o ponto
00 Fundamentos (DIKW · tipos de dado · ciclo de vida) 🛡️ blindagem barata — JÁ NO AR
01 CRISP-DM (as 6 fases na ordem) 🥉 alto — JÁ NO AR
02 Arquitetura & Eng. de Dados (DW/Lake/Lakehouse · ETL×ELT · OLAP · DAG) 🥈 ouro
03 Banco de Dados & SQL (relacional · normalização · NoSQL · SQL na mão) 🥈 OURO
04 ⬅️ (esta) Machine Learning & IA (sup×não-sup · cluster · over/underfit · regressão · Lasso/Ridge) 🥇 O OURO MÁXIMO — 13 ML em MT/GO/SP (maior bloco)
05 Governança & Ética de Dados (qualidade · viés · ética IA · IA generativa) 🟡 médio
06 Segurança / LGPD / Sigilo Fiscal (CID · LGPD · CTN 198 + IN SEFAZ-CE 92/21) 🟡 médio
07 Python / Pandas / NumPy (Pandas · leitura de código) 👻 órfão eliminatório (hedge)

🔑 Leitura do mapa: você já tem a base (Aula 0), o método (CRISP-DM, Aula 1), onde o dado mora (Aula 2) e o SQL (Aula 3). Agora a gente entra no que a FCC mais cobra. A Aula 04 é o pico da montanha — depois dela é descida (governança, segurança, Python-hedge). Domina esta e você domina a Fluência.


🎙️ O PLACAR DOS PROFESSORES — quem tem faro pra ML (e quem fura)

Estes professores são INSUMO — a palavra final é minha. Faro = quão bem cada um previu o que a FCC 2026 realmente cobrou em ML (MT/GO/SP — provas que JÁ aconteceram).

Prof Faro ML Confie nele para...
🥇 Lucas Ianni (Estratégia) 9/10 a fonte-mãe do bloco — sup×não-sup, over/underfit, clusterização, algoritmos por nome. Cirúrgico no conceito de ML.
🥇 Felipe Mathias (TI Descompl.) 10/10 (SP) o único completo — único que nomeou Lasso×Ridge, cravou viés×alucinação e train/val/test. Fonte de fechamento.
🥈 Renato da Costa (prof oficial CE) 6/10 as 3 caixinhas (sup/não-sup/reforço) e pré-processamento. ⚠️ deixa Lasso/Ridge e PyTorch "pra aula 2".
Thiago Cavalcanti 7/10 conceito limpo (DL ≠ paradigma; KNN/SVM) — banca FGV, vale o conceito, não a banca.

⚠️ HONESTIDADE OBRIGATÓRIA: o Ianni é o professor-mãe deste bloco (faro 9/10 em MT+GO) — cravou quase tudo. MAS ele tem 2 buracos: (1) não destilou PyTorch/frameworks (que caiu na GO) e (2) tangenciou o detalhe fino (regressão multinomial, Ward+euclidiana). E o Mathias é o único que entregou Lasso×Ridge. 🧭 Tradução do Camilo: eu uso o Ianni pra fundação do bloco, fecho com o Mathias nos pontos-cegos, e tapo eu mesmo o que ninguém deu (PyTorch). É exatamente nesses buracos que eu agrego o que o concorrente não tem.


🧠 BIZU DA BANCA — como a FCC pensa Machine Learning

🔑 Bordão da aula: na FCC, ML não se programa — se RECONHECE pelo gatilho. Sem rótulo = não-supervisionado = clustering.


📑 SUMÁRIO — os blocos desta aula (em ordem de ROI)

🥇 O NÚCLEO (cai nas 3 provas — ataca primeiro):

  1. Bloco 1 — Supervisionado × Não-supervisionado × Reforço 🔴 — o gatilho-mestre "sem rótulo = clustering".

  2. Bloco 2 — Clusterização 🔴 — K-means, K-means++/inércia, hierárquica/Ward, dendrograma (o campeão de recorrência).

  3. Bloco 3 — Over/Underfitting + Viés/Variância + Treino-Validação-Teste 🔴 — o diagnóstico que a FCC ama.

  4. Bloco 4 — Regressão 🔴 — linear, logística (=classificação/sigmoide), multinomial/softmax.

  5. Bloco 5 — Lasso (L1) × Ridge (L2) 🔴 — o ponto-cego que só o Mathias deu.

  6. Bloco 6 — Pré-processamento 🔴 — limpeza, imputação, normalização, outliers (NUNCA excluir registro!).

🥈 RECONHECIMENTO (pílulas — médio/buraco):

  1. Bloco 7 — Algoritmos por nome 🟠 — Random Forest, Isolation Forest, KNN×K-means, SVM, árvore.

  2. Bloco 8 — Deep Learning / Redes Neurais / PyTorch 🔴 buraco — o órfão da GO.

  3. Bloco 9 — Métricas 🟡 — matriz de confusão, precisão/recall, erro tipo I/II.

  4. Bloco 10 — NLP 🟢 — pílula curta.

  5. 🎓 FECHO + PLANO DE ATAQUE + DRILL.


▶️ Próximo (Bloco 1): o conceito mais recorrente do bloco inteiro — as 3 caixinhas de aprendizado — ancorado na fiscalização da DABOA, com o gatilho que mata metade das questões de ML da prova. Bora pro ouro.


Bloco 1 — SUPERVISIONADO × NÃO-SUPERVISIONADO × REFORÇO (o gatilho-mestre 🔴)

🎯 O que travar neste bloco (só isso):

🔴 PROBABILIDADE PRO CE: ALTA. É o conceito mais recorrente do bloco — caiu em MT (2×), é a base da questão de GO e caiu em SP. Os 3 sinais batem: caiu nas provas-espelho, o Renato (prof do CE) crava as "3 caixinhas", e está no edital (noções de ML). Se você só tem tempo pra um tema de ML, é este.


🎬 Caso prático — as 3 missões do Guilherme na DABOA

O Guilherme (seu amigo auditor) recebe 3 tarefas sobre a DABOA Comércio (a empresa fictícia, sempre ela). Cada uma é um tipo de aprendizado:

Missão do Guilherme Tem "gabarito" prévio? Tipo de aprendizado Por quê
1️⃣ "Esses 10 mil contribuintes JÁ foram rotulados como 'fraudou' ou 'não fraudou'. Treina um modelo pra prever os novos." ✅ SIM (rótulo histórico) SUPERVISIONADO aprende de exemplos rotulados → prevê (f(x) = Y)
2️⃣ "Não tenho rótulo nenhum. Acha sozinho grupos de contribuintes parecidos pra eu priorizar." ❌ NÃO (sem rótulo) NÃO-SUPERVISIONADO acha padrão/grupo sem variável-alvo → clustering
3️⃣ "O robô de fiscalização tenta uma ação, leva recompensa se acerta e penalidade se erra, e vai melhorando." 🎯 recompensa POR REFORÇO aprende por tentativa-erro maximizando recompensa

A sacada: a única pergunta que decide é "tem rótulo (resposta certa) no treino?". Tem → supervisionado. Não tem → não-supervisionado. Recompensa por ação → reforço. É exatamente o que a FCC pergunta — ela só veste de cenário fiscal.


🧊 AS 3 CAIXINHAS — caixa-mãe (decore esta tabela)

Tipo A pergunta O que faz Tarefas/algoritmos No Fisco
Supervisionado "tenho rótulo?" → SIM aprende de exemplos rotulados → predizPREDITIVO) classificação (categoria) + regressão (número) · KNN, SVM, árvore, Random Forest, regressão prever se o contribuinte vai inadimplir (já sei quem inadimpliu antes)
Não-supervisionado "tenho rótulo?" → NÃO acha estrutura/padrão sozinho (é DESCRITIVO) clusterização (K-means, hierárquico) · redução de dimensão (PCA) · anomalia · associação agrupar contribuintes parecidos sem saber os grupos de antemão
Por reforço "recompensa por ação?" aprende por tentativa-erro, maximiza recompensa Q-learning, política robô que aprende a sequência ótima de ações de fiscalização

🔑 A REGRA DE OURO (cole na parede):


🎙️ O PLACAR DOS PROFESSORES — Supervisionado × Não-supervisionado

Leitura do Camilo: o Ianni é o dono deste tema — cravou com as palavras exatas que a FCC usou. É a aposta mais segura do bloco inteiro.

Prof Apostou? Veredito O que disse (literal do dossiê)
Lucas Ianni (Estratégia) ✅ forte 🎯 CRAVOU (MT q2929/2996) "o aprendizado supervisionado é um aprendizado preditivo... Cuidado, isso DESPENCA em prova" [01:21:50] · "o não-supervisionado é descritivo... vai colocar na sua prova" [01:37:49]
Felipe Mathias (resolução SP) 🎯 CRAVOU (SP q3717) "'Sem rótulos' é o gatilho → não supervisionado = clustering"
Renato da Costa (prof do CE) 🎯 conceito as 3 caixinhas (sup/não-sup/reforço); "toda classificação e toda regressão são supervisionadas"

A leitura do Camilo: quando o Ianni fala "DESPENCA" e a prova confirma com 4 questões, você confia. Mas confia entendendo o gatilho (tem rótulo?), não decorando — porque a FCC veste isso de mil cenários fiscais diferentes.


🎯 QUESTÃO REAL — o gatilho "sem rótulo" puro (caiu de verdade ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863442
1 toque = candidata · 2 toques = riscar (eliminei)

Uma Secretaria da Fazenda analisa declarações fiscais sem rótulos prévios para identificar padrões de comportamento econômico atípico entre contribuintes, visando a subsidiar auditorias. A abordagem de aprendizado de máquina corretamente aplicada ao cenário descrito é aprendizado


🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO (a FCC repete)

  1. "Clusterização supervisionada" e "regressão não-supervisionada" NÃO EXISTEM. (Ianni). Clusterização é SEMPRE não-sup; regressão e classificação são SEMPRE sup. Viu o par trocado → risca.

  2. A palavra "segmentar" engana. "Segmentar contribuintes" parece cluster — mas se o enunciado disser que já há categorias prévias / treino+teste, é classificação supervisionada. Treino+teste sempre crava supervisionado (crítica do Renato à FCC).

  3. "Sem rótulo" = não-supervisionado, ponto. Não importa o nome bonito do algoritmo na alternativa (ROC, regras manuais) — se exige rótulo e o cenário negou rótulo, é distrator.

  4. Reforço ≠ não-supervisionado. Reforço tem recompensa/ação sequencial; não-sup só tem dado pra agrupar. Se aparece "recompensa/penalidade/ação", pensa reforço.


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 1)


➡️ Próximo (Bloco 2): agora que você sabe que "sem rótulo = clustering", vamos ver COMO o computador agrupa — o K-means e a hierárquica, o tema que caiu nas 3 provas (campeão de recorrência). Você vai ver o Guilherme separar os contribuintes da DABOA em "grupos de risco" sem ter rótulo nenhum.


Bloco 2 — CLUSTERIZAÇÃO (o campeão de recorrência 🔴)

🎯 O que travar neste bloco (só isso):

🔴 PROBABILIDADE PRO CE: ALTA (a mais segura). Clusterização caiu nas 3 provas-espelho (MT q2994, GO q2747, SP q3717) — o único tema de ML com esse retrospecto. É o campeão. Se cair UMA questão de ML no CE, há boa chance de ser esta.


🎬 Caso prático — o Guilherme separando a DABOA em grupos de risco

O Guilherme tem 500 mil contribuintes e nenhum rótulo (missão 2). Ele quer grupos naturais pra priorizar auditoria. Roda um K-means com K=3:

Passo do K-means O que acontece com os contribuintes
1️⃣ Inicializa escolhe 3 "centroides" (pontos-centro) iniciais
2️⃣ Atribui cada contribuinte vai pro centroide mais próximo (distância euclidiana)
3️⃣ Recalcula o centroide vira a MÉDIA dos contribuintes do grupo
4️⃣ Repete refaz 2-3 até os grupos pararem de mudar (convergir)

Resultado: 3 grupos — "baixo risco", "médio", "alto risco" — descobertos pelos dados, sem rótulo. O número de grupos NÃO sai igual: um grupo pode ter 200 mil, outro 50 mil — depende da proximidade, não da divisão "justa".


🧊 CLUSTERIZAÇÃO — caixa-mãe (decore)

Família Como agrupa Precisa dizer K antes? Saída Gatilho FCC
K-means (particional) centroides + média; minimiza distância SIM (define K) grupos "planos" "segmentar em K grupos", "centroides"
K-means++ igual, mas inicializa melhor sim menor inércia "reduzir sensibilidade à inicialização"
Hierárquica aglomerativa (Ward) junta os mais próximos de baixo pra cima (bottom-up) NÃO (vê no dendrograma) dendrograma (árvore) "estrutura hierárquica", "sem saber o nº de grupos"
DBSCAN por densidade (acha grupos de forma livre + ruído) não grupos + outliers "densidade", "formato irregular"

🔑 GATILHOS DE OURO:


🎙️ O PLACAR DOS PROFESSORES — Clusterização

Leitura do Camilo: o Ianni deu o passo a passo do K-means cravado, mas tangenciou o par exato da GO (Ward+euclidiana). É onde eu reforço.

Prof Apostou? Veredito O que disse (literal do dossiê)
Lucas Ianni (GO) ✅ forte 🎯 CRAVOU (q2994/q3717) "K-means++/múltiplas inicializações com menor inércia" [2:40:28] · passo a passo do K-means (inicializa→atribui→recalcula média→repete) [02:20:54]
Lucas Ianni (GO) parcial ⚠️ tangenciou listou famílias (K-means, AGNES/DIANA, DBSCAN, GMM) mas não nominou "Ward + euclidiana ao quadrado" — e foi exatamente o que caiu na GO
Felipe Mathias (SP) 🎯 CRAVOU (q3717) "K-means/DBSCAN/hierárquico" — mata por eliminação
Renato da Costa (prof do CE) 🎯 conceito "clusterização NÃO divide igual: 12 elementos / 3 clusters ≠ 4 por grupo; quem dividiu perdeu o ponto"

A leitura do Camilo: confia no Ianni pro K-means (ele crava), mas grava o par órfão da GO: "hierárquica + Ward + euclidiana ao quadrado = dendrograma". Ninguém martelou esse trio e ele caiu literal — é onde você ganha o ponto que o concorrente larga.


🎯 QUESTÃO REAL — K-means++ e a inércia (caiu na MT ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863434
1 toque = candidata · 2 toques = riscar (eliminei)

Considere a segmentação de contribuintes por perfil de comportamento fiscal com variáveis numéricas padronizadas e a necessidade de reduzir sensibilidade à inicialização e estabilizar agrupamentos ao longo do tempo. A prática técnica mais adequada ao aplicar K-Means ao cenário descrito é


🎯 Reforço — a HIERÁRQUICA Ward (o par órfão, caiu na GO ✅)

🎯 Questão — teste agora
FCC — AFRE GO/SEFAZ GO 2026 · tec 3975961
1 toque = candidata · 2 toques = riscar (eliminei)

Uma Secretaria Estadual analisa contribuintes do ICMS com variáveis numéricas contínuas padronizadas (faturamento, variação intermensal, frequência de retificações e uso de créditos), sem conhecimento prévio do número de grupos, e deseja obter uma estrutura hierárquica interpretável para priorização de auditorias. A combinação técnica que atende ao cenário descrito é


🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

  1. K-means EXIGE K antes e dá grupos planos · hierárquica NÃO exige e dá dendrograma. A FCC troca os dois.

  2. Cluster NÃO divide igual. "12 elementos / 3 clusters = 4 por grupo" → ERRADO (o tamanho depende da proximidade). Renato: "quem dividiu perdeu o ponto".

  3. K-means é sensível a outliers (usa média). Se a banca disser "K-means é robusto a valores extremos" → falso.

  4. K-means++ resolve a inicialização (não a distância, não o nº de grupos). Gatilho: "sensibilidade à inicialização" + "menor inércia".

  5. Dendrograma = só hierárquica. Se a alternativa põe "dendrograma" com K-means/k-medoids/DBSCAN → distrator (letra A da GO).


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 2)


➡️ Próximo (Bloco 3): o modelo agrupou/previu — mas será que generaliza ou só decorou o treino? Entra o diagnóstico que a FCC mais ama: over/underfitting, viés × variância e o porquê de separar treino-validação-teste. Você vai ver o modelo do Guilherme "ir bem no treino e mal na vida real".


Bloco 3 — OVER/UNDERFITTING + VIÉS/VARIÂNCIA + TREINO-VALIDAÇÃO-TESTE 🔴

🎯 O que travar neste bloco (só isso):

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em MT (2× — q2930, q2997) e SP (q3715 — train/val/test). É um dos diagnósticos mais frequentes. O Ianni cravou com as palavras exatas.


🎬 Caso prático — o modelo do Guilherme que "decorou" o treino

O Guilherme treina um modelo pra prever inadimplência de ICMS. No teste interno:

O que houve? O modelo decorou o ruído do treino (até a marca de café na planilha) em vez de aprender o padrão geral. Vai ótimo no que já viu, péssimo no que é novo. Isso é overfittingalta variância.

O oposto: se o Guilherme usasse um modelo simples demais (só "olha o faturamento"), erraria até no treinounderfitting, alto viés.

🧠 Bizu da banca

A analogia do CEFAN: você treinou um circuito de obstáculos decorando aquela pista específica (cada poça, cada corda). No dia da prova, pista diferente → você trava. Decorou o treino, não aprendeu a técnica geraloverfitting. Já quem treinou de menos e nem a pista conhecida vence → underfitting.


🧊 OVER × UNDER — caixa-mãe (decore o macete do Ianni)

Underfitting Overfitting
Viés / variância viés ALTO variância ALTA
No treino vai MAL (nem decora) vai BEM (decora demais)
Em dado novo vai mal vai MAL (não generaliza)
Modelo é... simples demais complexo demais
Causas poucas variáveis, modelo raso muitas épocas, poucos dados, data leakage
Bizu "burro nos dois" "gênio no treino, burro na prova"

🔑 O MACETE CRAVADO (Ianni [02:31:53], palavra por palavra): "alto viés → treina mal → underfit; alta variância → treina bem, testa mal → overfit."

🔑 TREINO-VALIDAÇÃO-TESTE: separar os 3 conjuntos serve pra avaliar o desempenho generalizável e evitar overfitting (gabarito literal da SP). Treino = aprende · validação = ajusta hiperparâmetros · teste = mede o resultado final (só uma vez).


🎙️ O PLACAR DOS PROFESSORES — Over/Underfit

Leitura do Camilo: o Ianni cravou idêntico ao gabarito. É um dos temas mais seguros da série.

Prof Apostou? Veredito O que disse (literal do dossiê)
Lucas Ianni (MT) ✅ forte 🎯 CRAVOU (q2930/2997/3715) "alto viés, treina mal, underfit; alta variância, treina bem, testa mal, overfit" [02:31:53]
Lucas Ianni (MT) 🎯 CRAVOU causas de overfit: alta variância, muitas épocas, poucos dados, data leakage ("a cola na mão" — caso real do Llama) [02:45:32]
Lucas Ianni (MT) 🎯 conceito "viés tem DOIS sentidos: IA = preconceituoso (caiu SP); estatística = erro de bias → underfit" [02:20:24] — não confundir
Felipe Mathias (SP) 🎯 CRAVOU (q3715) deu o esqueleto de overfitting + train/val/test

A leitura do Camilo: decora o macete do Ianni como mantra. E atenção ao duplo sentido de "viés": aqui (bias-variância) é erro estatístico → underfit; lá no Bloco 9/Governança é viés ético/discriminatório. A FCC usa as duas — o contexto diz qual.


🎯 QUESTÃO REAL — o overfitting clássico (caiu na MT ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863304
1 toque = candidata · 2 toques = riscar (eliminei)

Uma Administração Tributária desenvolveu um modelo de aprendizado supervisionado para prever o risco de inadimplência tributária de contribuintes, com o objetivo de priorizar ações de fiscalização. Observou-se que o modelo apresenta excelente desempenho no conjunto de treinamento, mas desempenho significativamente inferior quando aplicado a novos contribuintes (conjunto de teste). Nesse caso, está ocorrendo


🎯 Reforço — train/val/test, o porquê (caiu na SP ✅)

🎯 Questão — teste agora
FCC — SEFAZ-SP 2026 · tec 3843227
1 toque = candidata · 2 toques = riscar (eliminei)

Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é


🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

  1. Underfit ↔ overfit invertidos. Underfit vai mal no treino; overfit vai bem no treino e mal no teste. A FCC troca (foi a letra C da q2930).

  2. Viés alto = underfit / variância alta = overfit. A FCC pode inverter o macete (q2997 tinha "underfitting por baixa variância" = errado).

  3. "Validação ≠ teste." Validação ajusta hiperparâmetros; teste mede o final. A FCC inverte os papéis dos 3 conjuntos.

  4. Duplo sentido de "viés": aqui = erro estatístico (bias) → underfit. No contexto ético = discriminação. Leia o contexto.

  5. Causas de overfit ≠ o fenômeno. "Poucos dados" é causa; o nome do fenômeno (treino bom/teste ruim) é overfitting.


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 3)


➡️ Próximo (Bloco 4): o supervisionado que prevê número (regressão) — linear, logística (que na verdade classifica!) e a multinomial/softmax que caiu na GO. Você vai ver o Guilherme prever o ICMS esperado e classificar risco com a mesma família de modelos.


Bloco 4 — REGRESSÃO (linear · logística · multinomial 🔴)

🎯 O que travar neste bloco (só isso):

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em GO (q2684 — multinomial/softmax) e MT (q3001 — linear múltipla + multicolinearidade). O Ianni cravou "cai regressão", mas furou o detalhe da multinomial — é onde eu reforço.


🎬 Caso prático — o Guilherme prevendo e classificando

Duas tarefas diferentes, duas regressões:

Tarefa do Guilherme Saída Tipo
"Prever o ICMS esperado (R$) do varejista a partir de faturamento, nº de funcionários, notas emitidas" número contínuo (R$) regressão LINEAR
"Classificar o contribuinte como 'regular' / 'indício' / 'alto risco' (3 classes, sem ordem) com probabilidade por classe" categoria (1 de 3) regressão LOGÍSTICA multinomial (softmax)

A sacada: apesar do nome "regressão", a logística CLASSIFICA (devolve categoria/probabilidade), não prevê número. Regressão linear = número · regressão logística = classe. A FCC adora essa pegadinha.


🧊 REGRESSÃO — caixa-mãe (decore)

Tipo Prevê o quê Como Gatilho FCC
Linear (simples/múltipla) número contínuo (R$, tempo) reta de mínimos quadrados "prever valor/quantidade", "variável dependente numérica"
Logística (binária) categoria SIM/NÃO (2 classes) sigmoide → probabilidade → limiar 0,5 "classificar em 2 grupos", "probabilidade de fraude"
Logística MULTINOMIAL (softmax) categoria em 3+ classes sem ordem função softmax → probabilidade por classe vs referência "3 classes sem ordenação", "probabilidade por classe"

🔑 GATILHOS:


🎙️ O PLACAR DOS PROFESSORES — Regressão

Leitura do Camilo: o Ianni cravou "cai regressão" mas só nominou a binária — a GO cobrou a multinomial. Reforço esse buraco.

Prof Apostou? Veredito O que disse (literal do dossiê)
Lucas Ianni (GO) ✅ forte 🎯 CRAVOU o tema "tem que decorar uma de regressão, com certeza" — citou linear/Poisson/logística/séries [3:55:39]
Lucas Ianni (GO) parcial ⚠️ furou o detalhe "regressão logística NÃO prevê variável contínua — saída categórica via sigmoide + limiar 0,5" [2:27:26]; só nominou a binária, não a multinomial (q2684 era multinomial)
Felipe Mathias 🎯 conceito máxima verossimilhança → logística; mínimos quadrados → linear

A leitura do Camilo: o gancho seguro = logística = classificação (não prevê número). Mas grava a multinomial/softmax (3 classes, prob. por classe, categoria de referência) — o Ianni só tangenciou e foi exatamente o que a GO cobrou.


🎯 QUESTÃO REAL — a logística MULTINOMIAL (caiu na GO ✅)

🎯 Questão — teste agora
FCC — AFRE GO/SEFAZ GO 2026 · tec 3975962
1 toque = candidata · 2 toques = riscar (eliminei)

Um sistema de triagem de um órgão estadual classifica contribuintes em "regular", "indício" e "alto risco" com base em múltiplos indicadores fiscais, com categorias sem ordenação assumida e necessidade de probabilidades por classe. O modelo de regressão logística multinomial estimado no cenário descrito é


🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

  1. Logística NÃO prevê número contínuo — ela classifica (categoria/probabilidade). "Regressão logística prevê o valor do ICMS" = falso.

  2. Multinomial (sem ordem) × Ordinal (com ordem). "regular < indício < alto risco" forçando ordem = ordinal, não multinomial. A GO plantou isso (letra B).

  3. Linear = mínimos quadrados / Logística = sigmoide (máxima verossimilhança). A FCC troca os mecanismos.

  4. Multicolinearidade é restrita à regressão simplesFALSO (ela ataca a múltipla, que tem várias variáveis correlacionáveis). Caiu na q3001.

  5. Correlação ≠ causalidade. "Correlação prova que funcionário causa ICMS" = erro clássico (q3001 letra C).


🎯 Bônus — regressão linear MÚLTIPLA + multicolinearidade (caiu na MT ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863455
1 toque = candidata · 2 toques = riscar (eliminei)

Um Fiscal de uma Secretaria da Fazenda está desenvolvendo um modelo para prever o ICMS esperado de empresas do setor varejista. Ele analisa variáveis como faturamento bruto, número de funcionários e volume de notas emitidas. Para garantir que o modelo seja robusto e resista a questionamentos técnicos, ele deve


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 4)


➡️ Próximo (Bloco 5): o ponto-cego que SÓ o Mathias deu — Lasso × Ridge, as duas regularizações que combatem a multicolinearidade. Ponto de graça pra quem souber. Você vai ver qual delas zera variável e qual só encolhe.


Bloco 5 — LASSO (L1) × RIDGE (L2): o PONTO-CEGO 🔴

🎯 O que travar neste bloco (só isso):

🔴 PROBABILIDADE PRO CE: ALTA (mas é PONTO-CEGO). Caiu na SP (q3713). ⚠️ Sinal de aposta misto: caiu só na SP (1 prova) e só o Mathias dos professores deu — o Renato (prof do CE) não tocou. 🧭 Tradução do Camilo: é decoreba barata (2 frases) e ponto de graça pra quem souber. Não precisa drill pesado — mas grava as 2 frases, porque o concorrente vai deixar em branco.


🎬 Caso prático — o Guilherme com 27 variáveis demais

O Guilherme tem um modelo com 27 variáveis pra prever tempo de processamento de operações fiscais. Muitas são redundantes (correlacionadas — multicolinearidade). Ele quer enxugar:

🧠 Bizu da banca

Bizu de bolso: Lasso → Limpa (zera/seleciona). Ridge → Reduz (encolhe, não zera). L1 = Lasso = seLeciona; L2 = Ridge.


🧊 LASSO × RIDGE — caixa-mãe (decore as 2 frases)

Lasso (L1) Ridge (L2)
Penalização L1 (módulo dos coeficientes) L2 (quadrado dos coeficientes)
O que faz ZERA coeficientes ENCOLHE (não zera)
Efeito seleciona variáveis (elimina) mantém todas, reduz magnitude
Bom quando quer enxugar / poucas variáveis relevantes multicolinearidade, manter todas

🔑 A REGRA DE OURO: Lasso ZERA e seleciona · Ridge ENCOLHE e mantém. Os dois combatem overfitting. (Existe ainda o Elastic Net = mistura L1+L2, mas a FCC fica nos dois.)


🎙️ O PLACAR DOS PROFESSORES — Lasso × Ridge

Leitura do Camilo: este é órfão pra todo mundo menos o Mathias. É onde eu te dou o que o curso do CE não dá.

Prof Apostou? Veredito O que disse (literal do dossiê)
Felipe Mathias (SP) 🎯 CRAVOU (q3713) ÚNICO que deu o esqueleto: L1 (Lasso) zera/seleciona × L2 (Ridge) encolhe
Ianni / Emannuelle / Renato / Kessler / Léo ⚪ não cobriu ficaram no "ML genérico", não nomearam Lasso×Ridge — tema órfão pra eles

A leitura do Camilo: o Renato (prof do CE) NÃO ensina isso — então quem só faz o curso do CE chega em branco. Mas é 2 frases de decoreba: Lasso zera, Ridge encolhe. Ponto de graça pra quem dedicar 5 minutos. Eu te entreguei; o concorrente não vai ter.


🎯 QUESTÃO REAL — Lasso zera, Ridge encolhe (caiu na SP ✅)

🎯 Questão — teste agora
FCC — SEFAZ-SP 2026 · tec 3843010
1 toque = candidata · 2 toques = riscar (eliminei)

Durante uma auditoria de desempenho operacional, uma equipe pretende construir um modelo preditivo para explicar o tempo de processamento de operações fiscais (Y) a partir de 27 variáveis explicativas relacionadas a carga de trabalho, complexidade dos casos, perfil dos auditores e uso de sistemas internos. Como há suspeita de multicolinearidade elevada entre algumas variáveis, o auditor decide comparar dois métodos de regularização: Ridge e Lasso. Nesse contexto,


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 5)


➡️ Próximo (Bloco 6): antes de QUALQUER modelo, vem a faxina — o pré-processamento (a fase de preparação do CRISP-DM). Regex, imputação, normalização, outliers. E a regra de ouro que decide a questão: NUNCA excluir registro só porque falta um dado.


Bloco 6 — PRÉ-PROCESSAMENTO (a faxina antes do modelo 🔴)

🎯 O que travar neste bloco (só isso):

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em MT (q2999 — estatística robusta p/ outliers) e SP (q3716 — limpeza completa). O Renato crava o tema. A FCC dá um enunciado-cenário GIGANTE (CNPJ bagunçado, datas, outliers) e a certa é a abrangente e criteriosa.


🎬 Caso prático — a base imunda que chegou pro Guilherme

O Guilherme recebe 2,3 milhões de declarações e a base é um lixo:

Problema na base A faxina certa
CNPJ uns com ponto, outros sem regex padroniza o formato
Valor com vírgula E ponto decimal regex unifica
Datas em DD/MM/AAAA e AAAA-MM-DD regex padroniza
12% dos campos vazios imputação (média/mediana/KNN) contextual — ou exclui só se crítico
Outliers de receita analisar (legítimo × erro) ANTES de mexer
"Simples Nacional" / "SIMPLES NACIONAL" / "Simples nacional" normalizar texto (caixa baixa) → vira 1 categoria só

🚨 A regra de OURO (a que decide a questão): NUNCA exclua um registro só porque falta um campo. Jogar fora o contribuinte porque faltou 1 dado introduz viés e perde informação. A FCC planta "excluir registros vazios" como a pior opção — é sempre distrator.


🧊 PRÉ-PROCESSAMENTO — caixa-mãe (decore)

Etapa Ferramenta Cuidado
Padronizar formato regex (expressão regular) CNPJ, data, R$
Limpar texto caixa baixa, tira espaço/acento mata duplicata categórica
Dado faltante (imputação) média / mediana / KNN (contextual) ⚠️ NÃO excluir o registro por padrão
Normalização numérica min-max (0–1) · z-score (média 0, dp 1) escala, pra modelo não privilegiar variável grande
Outliers analisar legítimo × erro NÃO remover automático

🔑 GATILHOS:


🎙️ O PLACAR DOS PROFESSORES — Pré-processamento

Prof Apostou? Veredito O que disse (literal do dossiê)
Renato da Costa (CE) 🎯 CRAVOU (q3716) "normalização (estruturado, min-max/z-score) × tokenização (texto); merge-purge = dedup; tratamento de nulos/outliers"
Felipe Mathias (SP) 🎯 CRAVOU (q3716) cobriu pré-processamento na grade SP
Emannuelle Gouveia 🎯 CRAVOU (q3716) pré-proc na grade SP

A leitura do Camilo: consenso total — o Renato (prof do CE) é firme aqui. O segredo é o enunciado-cansaço: a FCC enche de problema (CNPJ, datas, outliers) e a certa é a mais completa e criteriosa. Risque a que "exclui registro" ou a que "remove outlier automático".


🎯 QUESTÃO REAL — a faxina completa (caiu na SP ✅)

🎯 Questão — teste agora
FCC — SEFAZ-SP 2026 · tec 3847053
1 toque = candidata · 2 toques = riscar (eliminei)

Uma Secretaria da Fazenda Estadual recebeu uma base de dados contendo 2,3 milhões de registros de declarações fiscais para análise de conformidade tributária. Durante a fase de exploração inicial, a equipe técnica identificou diversos problemas: campos de CNPJ com formatações inconsistentes (alguns com pontuação, outros sem), valores monetários registrados com separadores decimais divergentes (vírgula e ponto), datas em formatos distintos (DD/MM/AAAA, AAAA-MM-DD), campos obrigatórios vazios em aproximadamente 12% dos registros, e a presença de valores extremos de receita bruta (outliers) que distorciam as análises estatísticas. Além disso, a variável "regime tributário" apresentava categorias redundantes devido a erros de digitação (ex: "Simples Nacional", "SIMPLES NACIONAL", "Simples nacional"). Para viabilizar a análise de risco fiscal e a construção de modelos preditivos, tornou-se necessário aplicar técnicas sistemáticas de preparação dos dados antes do processamento analítico. Considerando as melhores práticas de pré-processamento de dados, o tratamento correto e adequado para essa situação é


🎯 Reforço — mediana + IQR contra outliers (caiu na MT ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863449
1 toque = candidata · 2 toques = riscar (eliminei)

Ao analisar grandes volumes de notas fiscais eletrônicas para apoio à fiscalização estadual, uma equipe de TI aplica estatística descritiva para compreender o comportamento dos valores declarados por contribuintes, considerando distribuições assimétricas, presença de valores extremos e necessidade de subsidiar modelos de inteligência artificial. A aplicação tecnicamente adequada das medidas de tendência central e de dispersão nesse cenário ocorre quando se


🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

  1. "Excluir registro por dado ausente" = SEMPRE errado (perde info, vicia a amostra). É a armadilha-rei (q3716 letra C).

  2. "Remover outlier automaticamente" = errado — analisar legítimo × erro primeiro (um faturamento alto pode ser real).

  3. Mediana + IQR = robustos (assimetria/outliers) · média + desvio = sensíveis. A FCC inverte.

  4. Não confunda normalização de ML (min-max/z-score, escala numérica) com normalização de BD (1FN/2FN/3FN, decompor tabela — Aula 3). A FCC adora cruzar.

  5. Ferramenta certa pro problema certo: regex (formato) · texto-baixo (duplicata categórica) · stemming/tokenização (texto livre/NLP) · interpolação/forward fill (série temporal). Trocar = distrator.


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 6)


➡️ Próximo (Bloco 7): agora os algoritmos por nome — você não precisa saber COMO funcionam, só reconhecer Random Forest, Isolation Forest, KNN×K-means e SVM pelo cenário. Pílulas rápidas de reconhecimento.


Bloco 7 — ALGORITMOS POR NOME (reconhecimento 🟠)

🎯 O que travar neste bloco (só isso):

🟠 PROBABILIDADE PRO CE: MÉDIA-ALTA. Caiu em MT (3 q: q2929, q2995, q2998). O Ianni cravou que basta reconhecer pelo nome. Não precisa drill pesado — é reconhecer o cenário e cravar o nome.


🧊 ALGORITMOS — caixa-mãe (decore o gatilho, não o como)

Algoritmo Tipo O que faz Gatilho FCC
Random Forest supervisionado (ensemble) junta muitas árvores → reduz variância, robusto a ruído "reduzir variância", "agregação de árvores", "não linear com ruído"
Isolation Forest não-supervisionado (anomalia) isola pontos; anômalo = menos partições → menor profundidade → maior escore "detectar anomalia sem rótulo", "ponto atípico"
KNN (k vizinhos) supervisionado classifica pelo voto dos K vizinhos mais próximos "classificar com base nos vizinhos", "rótulo"
K-means não-supervisionado agrupa por centroide (Bloco 2) "agrupar sem rótulo"
SVM supervisionado acha a fronteira/margem que separa classes "separar classes", "hiperplano/margem"
Árvore de decisão supervisionado regras se-então hierárquicas "regras hierárquicas de classificação"

🔑 A PEGADINHA-REI: KNN é SUPERVISIONADO (tem rótulo, classifica) · K-means é NÃO-supervisionado (sem rótulo, agrupa). Nomes parecidos, mundos opostos. A FCC junta os dois na mesma questão (q2929).


🎙️ O PLACAR DOS PROFESSORES — Algoritmos

Prof Veredito O que disse (literal)
Lucas Ianni 🎯 CRAVOU (q2929) "para concursos não precisa saber COMO funcionam, precisa saber o NOME deles" [02:00:34] · KNN ≠ K-means (KNN sup, K-means não) [2:45:48]
Lucas Ianni (GO) 🎯 conceito (q2995/2998) citou árvore, random forest, regressão logística, anomalia/Isolation no bloco de fraude
Thiago Cavalcanti (MT) 🎯 conceito over/underfit, k-means, KNN, SVM (contexto FGV)

A leitura do Camilo: o Ianni acertou o approach — decora o nome e a categoria, não o algoritmo por dentro. É o jeito mais econômico de pegar esses pontos.


🎯 QUESTÃO REAL — exemplo de NÃO-supervisionado (caiu na MT ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863303
1 toque = candidata · 2 toques = riscar (eliminei)

Dentre as técnicas de Machine Learning, constitui um exemplo de aprendizado não supervisionado


🎯 Reforço — Isolation Forest (anomalia, caiu na MT ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863440
1 toque = candidata · 2 toques = riscar (eliminei)

Considerando a aplicação de Isolation Forest para identificar contribuintes com comportamento atípico em dados sem rótulos de fraude, com variáveis contínuas e distribuição assimétrica, o princípio técnico que fundamenta corretamente a detecção de anomalias no cenário descrito é:


🎯 Reforço — Random Forest reduz variância (caiu na MT ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT 2026 · tec 3863448
1 toque = candidata · 2 toques = riscar (eliminei)

Uma SEFAZ faz a análise de milhões de notas fiscais eletrônicas com relações não lineares, presença de ruído e necessidade de reduzir autuações indevidas decorrentes de variância do modelo. Nesse cenário, o algoritmo adequado para ser utilizado é


🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

  1. KNN (supervisionado) × K-means (não-supervisionado) — a pegadinha-rei. Nomes parecidos, categorias opostas.

  2. Random Forest REDUZ variância (ensemble). Se a banca disser "aumenta variância" → falso.

  3. Isolation Forest = anomalia sem rótulo (não-sup), por isolamento (não por densidade, não por centroide).

  4. SVM e árvore são supervisionados. Só K-means e Isolation Forest (deste bloco) são não-sup.

  5. "Sem controle de profundidade / maximizar ajuste" = receita de overfit — distrator clássico (q2998 letra A).


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 7)


➡️ Próximo (Bloco 8): o buraco órfão da GO — Deep Learning, redes neurais e o framework PyTorch que ninguém destilou. É o ponto que o concorrente larga em branco.


Bloco 8 — DEEP LEARNING / REDES NEURAIS / PyTorch 🔴 (o buraco órfão)

🎯 O que travar neste bloco (só isso):

🔴 PROBABILIDADE PRO CE: ALTA (buraco real). Caiu na GO (q2751 — PyTorch). ⚠️ O conceito de DL todos deram, mas o framework PyTorch foi ÓRFÃO — ninguém destilou. É exatamente onde eu te dou o que faltou.


🎬 Caso prático — a boneca russa do Guilherme

Pra entender o tamanho de cada coisa, pensa em bonecas russas (uma dentro da outra):

E o PyTorch é a ferramenta (framework Python) que o cientista usa pra montar essas redes. TensorFlow é a ferramenta concorrente do Google.


🧊 DEEP LEARNING & FRAMEWORKS — caixa-mãe

Conceito O que é
Hierarquia IA ⊃ ML ⊃ Aprend. de Representação ⊃ Deep Learning
Deep Learning subárea de ML com redes neurais profundas (várias camadas ocultas)
Rede neural perceptron → MLP → CNN (imagem) → RNN (sequência) → Transformers (texto/LLM)
PyTorch grafo DINÂMICO (define-by-run) + autograd — monta na execução, fácil de depurar
TensorFlow clássico = grafo ESTÁTICO (define o grafo antes de rodar)

🔑 GATILHOS:


🎙️ O PLACAR DOS PROFESSORES — Deep Learning / PyTorch

Leitura do Camilo: o conceito de DL todos deram; o framework foi órfão. É aqui que eu tapo o buraco.

Prof Veredito O que disse (literal)
Lucas Ianni (GO-RF) 🎯 conceito DL / ❌ furou PyTorch "deep learning = subárea de ML que usa redes neurais profundas para aprender a relevância dos atributos" [01:32:28]; boneca russa IA⊃ML⊃DL
Thiago Cavalcanti (MT) 🎯 conceito "DL não é paradigma de aprendizado, é subcategoria de redes multicamada" [04:10:33]
TODOS ÓRFÃO ninguém cravou frameworks (PyTorch/TensorFlow) — e foi o que caiu na GO

A leitura do Camilo: o PyTorch foi órfão na GO — nenhum professor de reta final entregou. Decoreba certeira (2 frases): PyTorch = dinâmico (define-by-run) + autograd · TensorFlow = estático. Ponto de graça pra quem souber a diferença.


🎯 QUESTÃO REAL — PyTorch define-by-run (caiu na GO ✅)

🎯 Questão — teste agora
FCC — AFRE GO/SEFAZ GO 2026 · tec 3975956
1 toque = candidata · 2 toques = riscar (eliminei)

Considerando uma equipe que prototipa redes neurais em Python e precisa depurar o fluxo de gradientes durante experimentos, ajustando dinamicamente o caminho computacional conforme condições em tempo de execução, a característica do PyTorch que atende ao cenário é


🪤 AS PEGADINHAS QUE DECIDEM A QUESTÃO

  1. PyTorch = dinâmico (define-by-run) · TensorFlow = estático (grafo antes). A FCC troca os dois (foi a letra C da GO).

  2. DL NÃO é paradigma de aprendizado — é subcategoria (redes profundas). Paradigmas são sup/não-sup/reforço.

  3. Boneca russa: IA ⊃ ML ⊃ Repr. ⊃ DL. Se inverterem (ML dentro de DL) → falso.

  4. (nível hard CE — Simulado TI): transformers — encoder (BERT) = bidirecional/classificação · decoder-only (GPT) = generativo autorregressivo · encoder-decoder (T5) = tradução. Pegadinha: "decoder é bidirecional" = falso (bidirecional é o encoder).


🔗 CONEXÃO — não é ilha


🧊 GUARDE NO BOLSO (Bloco 8)


➡️ Próximo (Bloco 9): como você sabe se o modelo é bom? As métricas — matriz de confusão, precisão × recall, erro tipo I × II. Pílula rápida com o vocabulário que a FCC cobra.


Bloco 9 — MÉTRICAS DE AVALIAÇÃO 🟡 (pílula)

🎯 O que travar neste bloco (só isso):

🟡 PROBABILIDADE PRO CE: MÉDIA. Não caiu como questão pura nas 3 (2026), mas é vocabulário-base que o Ianni martelou e pode aparecer embutido. Pílula de blindagem.


🧊 MÉTRICAS — caixa-mãe (decore o fiscal)

Termo O que é No Fisco (DABOA)
Verdadeiro Positivo (VP) acusei fraude e ERA fraude autuação certeira
Falso Positivo (FP) = Erro tipo I acusei fraude mas NÃO era autuou o inocente (gera recurso)
Falso Negativo (FN) = Erro tipo II NÃO acusei mas ERA fraude a DABOA escapou
Precisão VP / (VP+FP) — dos acusados, quantos certos "quão confiável é minha autuação"
Recall (revocação) VP / (VP+FN) — das fraudes reais, quantas peguei "quantas fraudes eu não deixei passar"

🔑 GATILHOS:


🎙️ O PLACAR — Métricas

Leitura do Camilo: o Ianni cobriu matriz de confusão, precisão/recall/F1, erro tipo I/II na aula do MT — "vale 100% pro CE, TI é nacional" [85]. Não caiu puro em 2026, mas é vocabulário que sustenta as questões de classificação. Blindagem barata: decora os pares e segue.

⚖️ NOTA DE HONESTIDADE (anti-invenção): este bloco não traz badge de questão FCC porque, conferido no banco, métricas não caíram como questão dedicada nas 3 provas fiscais 2026 (MT/GO/SP). É vocabulário-base (aparece embutido em classificação). Por isso o selo é 🟡 blindagem — decora os pares (tipo I = FP, tipo II = FN; precisão × recall) em 10 min e segue. Não martela.


🪤 PEGADINHAS

  1. Erro tipo I (FP) × tipo II (FN) — a FCC troca. Bizu: I = acusou à toa (1 acusação errada) · II = deixou passar.

  2. Precisão ≠ Recall. Precisão olha os acusados; recall olha as fraudes reais. Confundir = erro clássico.

  3. Acurácia engana com dados desbalanceados (se 99% são regulares, "chutar tudo regular" dá 99% de acurácia mas pega 0 fraude — por isso usa-se precisão/recall).


🧊 GUARDE NO BOLSO (Bloco 9)


➡️ Próximo (Bloco 10): a pílula final — NLP (texto), que não caiu puro mas o edital cita. Rapidinho e fechamos o ouro.


Bloco 10 — NLP (Processamento de Linguagem Natural) 🟢 (pílula curta)

🎯 O que travar (só isso):

🟢 PROBABILIDADE PRO CE: BAIXA-MÉDIA.Não caiu puro nas 3 (2026) — só como distrator/contexto. Mas o edital CE cita ML/IA/NLP. Pílula — não é alvo de drill.


🧊 NLP — caixa-mãe (rápido)

Termo O que é
NLP / PLN IA que processa linguagem natural (texto/fala) — classifica, resume, traduz
Tokenização quebra o texto em tokens (palavras/pedaços)
Stemming corta a palavra na raiz bruta ("fiscalização" → "fiscaliz")
Lematização reduz ao lema correto ("foi" → "ser")
Stop words remove palavras vazias ("de", "a", "o")
LLM modelo de linguagem grande (GPT) — "especializado em processamento e compreensão de linguagem natural" (TRF-4 FCC)

🔑 Gatilho: texto livre / linguagem natural → NLP. Tokenização/stemming = ferramenta de texto (não use em campo categórico — pegadinha do pré-processamento, Bloco 6).


🎙️ O PLACAR — NLP

Leitura do Camilo: o Renato planta NLP (LLM, TRF-4 2025), o Thiago dá stemming/lematização/stop words. ❌ Não caiu puro em 2026. É tema "em alta" mas de baixo retorno imediato.

⚖️ NOTA DE HONESTIDADE (anti-invenção): sem badge de questão — NLP não caiu como questão dedicada nas 3 provas fiscais 2026; apareceu só embutido (tokenização em SP-3716, "texto livre" em MT-3006). Selo 🟢 blindagem — leia a tabela em 5 min, conheça o vocabulário, e não invista drill. Se a FCC homenagear o edital, você reconhece os termos.


🔗 CONEXÃO: NLP processa o dado não-estruturado (texto/PDF, Aula 0) — o "garimpo" do auto de infração escaneado. A tokenização é etapa de pré-processamento de texto (Bloco 6).

🧊 GUARDE NO BOLSO (Bloco 10): NLP = IA de texto (classifica/resume) · tokenização/stemming/lematização/stop words = faxina de texto · LLM = modelo de linguagem (GPT). 🟢 baixo retorno — pílula.


Bloco 11 — 🎓 FECHO + PLANO DE ATAQUE + DRILL

Para tudo e respira, Felício. 🫁 Você acabou de subir a montanha. Esta era a aula que define a aprovação — o bloco que te eliminou no SEFA-PA agora é um punhado de gatilhos que você desenha de olho fechado. Antes de fechar, guarda o ouro no bolso e pega a ordem exata de ataque.


📦 O QUE LEVAR NO BOLSO (o ML inteiro num cartão)

A TABELA-MÃE DO BLOCO D (cola no espelho):

Tema O gatilho/macete 🔑 Bordão
Sup × Não-sup "sem rótulo → não-sup → cluster" "rótulo decide tudo"
Clusterização K-means (K antes, sensível a outlier) · K-means++ (inércia) · hierárquica Ward+euclidiana² (dendrograma) "menor inércia = K-means++; hierárquico = Ward"
Over/Underfit viés↑=underfit (treina mal) · variância↑=overfit (treina bem, testa mal) "gênio no treino, burro na prova = overfit"
Regressão linear=número · logística=classifica (sigmoide) · multinomial=prob. por classe sem ordem "logística classifica, não prevê número"
Lasso × Ridge Lasso (L1) ZERA/seleciona · Ridge (L2) ENCOLHE "L=Limpa · R=Reduz"
Pré-proc regex/imputação contextual/normalização/outlier-analisar "NUNCA excluir registro por dado faltante"
Algoritmos RF=reduz variância · Isolation=anomalia · KNN(sup)≠K-means(não-sup) · SVM=fronteira "reconhece pelo nome, não pelo como"
Deep/PyTorch IA⊃ML⊃DL · PyTorch=dinâmico · TensorFlow=estático "PyTorch monta na hora (define-by-run)"
Métricas tipo I=FP · tipo II=FN · precisão×recall "I acusa à toa, II deixa escapar"

🎯 PLANO DE ATAQUE 80/20 (a ORDEM, não a lista)

Você não vai gabaritar ML — vai pegar os campeões que repetem e furar o corte. A ordem é por ROI:

1️⃣ DOMINA os 4 que caem nas 3 provas (o coração)

2️⃣ FECHA os 2 pontos-cegos (de graça pra quem souber) 🎯

3️⃣ RECONHECE o resto (pílula, sem drill pesado) 🟠

🧭 Bordão do plano: ML não se programa — se reconhece. Trava os 4 campeões + os 2 pontos-cegos e o corte da Fluência vira passado.


🎙️ O lembrete final (honestidade temporal)

O CE ainda NÃO aconteceu (prova 01-02/08/2026) — tudo aqui é aposta 🔮, calibrada pelo que JÁ CAIU ✅ em GO/SP/MT 2026.

Tema Já caiu? Pro CE
Sup × não-sup ✅ MT(2)·SP·base GO 🔴 ALTA
Clusterização MT·GO·SP (3 provas) 🔴 ALTA (campeão)
Over/underfit + train/val/test ✅ MT(2)·SP 🔴 ALTA
Regressão (multinomial) ✅ GO·MT 🔴 ALTA
Lasso × Ridge ✅ SP (só Mathias deu) 🔴 ALTA (ponto-cego)
Pré-processamento ✅ MT·SP 🔴 ALTA
Algoritmos (RF/Isolation/KNN/SVM) ✅ MT(3) 🟠 MÉDIA-ALTA
Deep Learning / PyTorch ✅ GO (órfão) 🔴 ALTA (buraco)
Métricas / NLP ❌ não puro 🟡/🟢 blindagem

O professor de TI aqui é o Camilo. O Ianni e o Mathias têm faro de ouro — eu peso o que mostraram —, mas eu te disse onde o Ianni furou (PyTorch, multinomial) e onde só o Mathias entregou (Lasso×Ridge). Você não decora cursinho — você lê o gatilho do cenário e crava a técnica.

🔑 Bordão-mestre da Aula 04: na FCC, ML é RECONHECIMENTO — sem rótulo = cluster, treino-bom-teste-ruim = overfit, Lasso zera, Ridge encolhe. Quem lê o gatilho não decora ML — deduz.


🧭 PRÓXIMA PARADA — Aula 05: Governança & Ética de Dados.

Você já sabe construir o modelo. Na Aula 05 a gente vê como governá-lo com responsabilidade — qualidade de dados, os modelos de governança (colegiada/federada — caiu na SP!), e o par que a FCC ama confundir: viés algorítmico × alucinação da IA generativa. É o ouro de baixa concorrência. Te espero lá. 🪜


🎯 HORA DE RESOLVER — Drill da Aula 04

🔵 Bate o olho e resolve as que você já sabe · 🔴 Corrige com calma as que travar. Todas FCC, conferidas no banco. As primeiras são os campeões (sup×não-sup, cluster, overfit, pré-proc) — o que mais cai; depois os pontos-cegos (Lasso/Ridge, PyTorch) e os algoritmos por nome.

🎯 Questões pra resolver

👆 Marque a sua (1 toque) · risque as eliminadas (2 toques) · Conferir mostra o gabarito. A resolução comentada abre no TEC.
Questão 1 (FCC · SEFAZ-MT · 2026 · tec 3863442)
Uma Secretaria da Fazenda analisa declarações fiscais sem rótulos prévios para identificar padrões de comportamento econômico atípico entre contribuintes, visando a subsidiar auditorias. A abordagem de aprendizado de máquina corretamente aplicada ao cenário descrito é aprendizado
Questão 2 (FCC · SEFAZ-MT · 2026 · tec 3863303)
Dentre as técnicas de Machine Learning, constitui um exemplo de aprendizado não supervisionado
Questão 3 (FCC · SEFAZ-MT · 2026 · tec 3863434)
Considere a segmentação de contribuintes por perfil de comportamento fiscal com variáveis numéricas padronizadas e a necessidade de reduzir sensibilidade à inicialização e estabilizar agrupamentos ao longo do tempo. A prática técnica mais adequada ao aplicar K-Means ao cenário descrito é
Questão 4 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975961)
Uma Secretaria Estadual analisa contribuintes do ICMS com variáveis numéricas contínuas padronizadas (faturamento, variação intermensal, frequência de
retificações e uso de créditos), sem conhecimento prévio do número de grupos, e deseja obter uma estrutura hierárquica interpretável para priorização de auditorias. A
combinação técnica que atende ao cenário descrito é
Questão 5 (FCC · SEFAZ-SP · 2026 · tec 3847058)
Uma Secretaria da Fazenda Estadual precisa analisar 500 mil declarações fiscais para identificar contribuintes com comportamento tributário similar, sem ter exemplos prévios de classificação. A equipe técnica deve agrupar as empresas considerando apenas as características declaradas (receita, despesas, setor, localização) e descobrir padrões naturais nos dados. A técnica mais adequada para essa tarefa é:
Questão 6 (FCC · SEFAZ-MT · 2026 · tec 3863304)
Uma Administração Tributária desenvolveu um modelo de aprendizado supervisionado para prever o risco de inadimplência tributária de contribuintes, com o objetivo de priorizar ações de fiscalização. Observou-se que o modelo apresenta excelente desempenho no conjunto de treinamento, mas desempenho significativamente inferior quando aplicado a novos contribuintes (conjunto de teste). Nesse caso, está ocorrendo
Questão 7 (FCC · SEFAZ-MT · 2026 · tec 3863445)
Um classificador de risco de inadimplência foi treinado com histórico fiscal, que apresenta desempenho elevado no treino e queda consistente em dados novos, mesmo com validação adequada. O fenômeno técnico caracterizado no cenário descrito é
Questão 8 (FCC · SEFAZ-SP · 2026 · tec 3843227)
Na modelagem estatística utilizando aprendizado de máquina, a principal razão para separar os dados em conjuntos de treinamento, validação e teste é
Questão 9 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975962)
Um sistema de triagem de um órgão estadual classifica contribuintes em “regular”, “indício” e “alto risco” com base em múltiplos indicadores fiscais, com categorias
sem ordenação assumida e necessidade de probabilidades por classe. O modelo de regressão logística multinomial estimado no cenário descrito é
Questão 10 (FCC · SEFAZ-MT · 2026 · tec 3863455)
Um Fiscal de uma Secretaria da Fazenda está desenvolvendo um modelo para prever o ICMS esperado de empresas do setor varejista. Ele analisa variáveis como faturamento bruto, número de funcionários e volume de notas emitidas. Para garantir que o modelo seja robusto e resista a questionamentos técnicos, ele deve
Questão 11 (FCC · SEFAZ-SP · 2026 · tec 3843010)
Durante uma auditoria de desempenho operacional, uma equipe pretende construir um modelo preditivo para explicar o tempo de processamento de operações fiscais (Y) a partir de 27 variáveis explicativas relacionadas a carga de trabalho, complexidade dos casos, perfil dos auditores e uso de sistemas internos. Como há suspeita de multicolinearidade elevada entre algumas variáveis, o auditor decide comparar dois métodos de regularização: Ridge e Lasso. Nesse contexto,
Questão 12 (FCC · SEFAZ-SP · 2026 · tec 3847053)
Uma Secretaria da Fazenda Estadual recebeu uma base de dados contendo 2,3 milhões de registros de declarações fiscais para análise de conformidade tributária. Durante a fase de exploração inicial, a equipe técnica identificou diversos problemas: campos de CNPJ com formatações inconsistentes (alguns com pontuação, outros sem), valores monetários registrados com separadores decimais divergentes (vírgula e ponto), datas em formatos distintos (DD/MM/AAAA, AAAA-MM-DD), campos obrigatórios vazios em aproximadamente 12% dos registros, e a presença de valores extremos de receita bruta (outliers) que distorciam as análises estatísticas. Além disso, a variável "regime tributário" apresentava categorias redundantes devido a erros de digitação (ex: "Simples Nacional", "SIMPLES NACIONAL", "Simples nacional"). Para viabilizar a análise de risco fiscal e a construção de modelos preditivos, tornou-se necessário aplicar técnicas sistemáticas de preparação dos dados antes do processamento analítico. Considerando as melhores práticas de pré-processamento de dados, o tratamento correto e adequado para essa situação é
Questão 13 (FCC · SEFAZ-MT · 2026 · tec 3863449)
Ao analisar grandes volumes de notas fiscais eletrônicas para apoio à fiscalização estadual, uma equipe de TI aplica estatística descritiva para compreender o comportamento dos valores declarados por contribuintes, considerando distribuições assimétricas, presença de valores extremos e necessidade de subsidiar modelos de inteligência artificial. A aplicação tecnicamente adequada das medidas de tendência central e de dispersão nesse cenário ocorre quando se
Questão 14 (FCC · SEFAZ-MT · 2026 · tec 3863440)
Considerando a aplicação de Isolation Forest para identificar contribuintes com comportamento atípico em dados sem rótulos de fraude, com variáveis contínuas e distribuição assimétrica, o princípio técnico que fundamenta corretamente a detecção de anomalias no cenário descrito é:
Questão 15 (FCC · SEFAZ-MT · 2026 · tec 3863448)
Uma SEFAZ faz a análise de milhões de notas fiscais eletrônicas com relações não lineares, presença de ruído e necessidade de reduzir autuações indevidas decorrentes de variância do modelo. Nesse cenário, o algoritmo adequado para ser utilizado é
Questão 16 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975956)
Considerando uma equipe de ciência de dados da Secretaria da Economia Estadual que prototipa redes neurais em Python e precisa depurar o fluxo de gradientes
durante experimentos com dados fiscais, ajustando dinamicamente o caminho computacional conforme condições em tempo de execução, a característica do PyTorch que
atende diretamente ao cenário descrito é

Última atualização: 22/06/2026 12:09 — Camilo

Camilo · Projeto Auditor · modo interativo