Aula_2_Arquitetura

Arquitetura foi o assunto mais ESTÁVEL nas 3 provas-espelho. Cruzei SEFAZ-MT, GO e SP (todas FCC 2026): Data Lake/DW/Lakehouse + ETL/ELT apareceram nas três (o ML rende mais questões — é o ouro máximo da Aula 4 —, mas é o mais cabuloso; aqui o ponto é fácil e recicladíssimo).
É onde o prof do CE aposta DINHEIRO. O Renato da Costa (Fluência do CE) sobre Lakehouse: "que probabilidade de cair? ALTÍSSIMA. Falei antes da SEFAZ-SP e CAIU. No edital de VOCÊS tem Data Lakehouse, então você TEM que saber." E o edital do CE lista nominalmente: "Data Warehouse, Data Mart, Data Lake, Data Lakehouse".
É o bloco que te recupera do 35%. Você foi eliminado por Fluência no PA. Aqui mora a montanha de pontos fáceis da matéria: conceito nacional, estável, que a FCC veste de cenário fiscal (NF-e, ICMS, arrecadação) — exatamente o terreno onde você já joga em casa.
⚡ A virada continua valendo: a FCC 2026 cobra APLICADO — ela te dá um cenário de SEFAZ e pergunta "qual arquitetura/processo atende?". Não é "defina Data Lake", é "escolha a arquitetura certa pro caso". É decisão, não decoreba solta.

🏅 Depoimento de aprovado

Gabriel Santana — 1º lugar SEFAZ-GO 2026 (banca FCC). (GO-2026 é o espelho do edital do CE — mesma banca, edital reciclado.) 🔗 Fonte: live LS Concursos c/ Prof. Lucas Eduardo · DEPOIMENTOS_APROVADOS.md (depoimento #1)

🎯 A tática dele: teoria uma passada só, o resto é questão. "Eu só aprendia mesmo com as questões." — Arquitetura é o bloco perfeito pra isso: os conceitos são poucos e fixos, e a FCC recicla os mesmos enunciados (Data Lake schema-on-read, ETL×ELT, drill-down). Você decora o quadro dos 4 + treina 5 questões e o tema está fechado.
💎 O ouro anti-desânimo: "TI a 70–75% por anos é NORMAL" — mas Arquitetura é onde dá pra puxar a média pra cima, porque os pontos são fáceis e repetidos. Não é o ML cabuloso da Aula 4: aqui é decoreba inteligente + caso prático.

🗺️ MINI-MAPA DA SÉRIE — 8 aulas (onde mora o OURO)

Aula	Tema	💰 Onde está o ponto
00	Fundamentos (tipos de dado, DIKW, ciclo de vida)	🛡️ blindagem — JÁ NO AR
01	CRISP-DM (as 6 fases na ordem)	🥉 alto — JÁ NO AR
02 ⬅️ (esta)	Arquitetura & Eng. de Dados (DW/Mart/Lake/Lakehouse · ETL×ELT · OLAP · Big Data · DAG)	🥇 OURO — caiu nas 3 provas
03	Banco de Dados & SQL (relacional, normalização, NoSQL, SQL na mão)	🥇 OURO — SQL escrito despenca
04	Machine Learning & IA (super × não-sup, cluster, over/underfit, Lasso/Ridge)	👑 O OURO MÁXIMO — 7 de 11 em SP
05	Governança & Ética de Dados (qualidade, viés, IA generativa)	🟡 médio
06	Segurança / LGPD / Sigilo Fiscal (CID, LGPD, CTN 198 + IN SEFAZ-CE 92/21)	🟡 médio
07	Python / Pandas / NumPy (Pandas, leitura de código)	👻 órfão eliminatório (hedge)

🔑 Leitura do mapa: Aulas 02 → 04 são o coração da nota. Esta Aula 02 é a que tem melhor relação custo × ponto: conceito fixo, caiu nas 3, e o prof do CE aposta forte. Domine aqui antes de encarar o ML pesado da Aula 4.

🎙️ O PLACAR DOS PROFESSORES (faro FCC neste bloco)

Estes são os profs que a gente "ouviu" pra montar a munição. Eles são INSUMO — a palavra final é minha. Faro = quão bem cada um previu o que a FCC 2026 cobrou (MT/GO/SP — provas que JÁ aconteceram). Neste bloco, a notícia é boa: quase ninguém furou — arquitetura é conceito estável e todo mundo acertou bem.

Prof	Faro (neste bloco)	Confie nele para...
Renato da Costa (prof oficial do CE)	9/10 aqui	DW/Lake/Lakehouse, medalhão, ETL×ELT (~30 questões), DW sem bloqueio por concorrência — a fonte-mãe deste bloco
Léo Matos (Data Fluency)	8/10	DW não-volátil, Data Lake schema-on-read, Data Mart, drill-down×roll-up
Felipe Mathias	9/10	cravou Lakehouse (Delta/Iceberg) exato na SP, ETLT, leitura de código
Emannuelle Gouveia	8/10	OLAP/drill-down, Data Lake, "DW arrumado × Lake misturado"
Thiago Cavalcanti (FGV)	7/10	conceito limpo de HDFS/Spark (vale o conceito, não a banca)

🧠 BIZU DA BANCA — como a FCC pensa Arquitetura

🎯 A FCC dá um CENÁRIO e pede a ESCOLHA. O padrão é sempre: "a SEFAZ precisa armazenar X, preservar Y, analisar Z — qual arquitetura/processo atende?". Você não define — você decide entre Data Lake, DW, Mart, Lakehouse, ETL, ELT.
🪤 Ela troca uma característica de lugar. Pega o conceito certo e inverte um detalhe: diz que Data Lake usa schema-on-write (errado), que ETL transforma depois (errado), que drill-down agrega (errado). O erro é quase sempre uma palavra trocada.
⚡ A dica nº 1 (do Mathias/Pacheco): leia o COMANDO primeiro (a pergunta no fim) e procure no enunciado só o gatilho: "dado bruto / múltiplos formatos / schema-on-read" → Data Lake; "transforma depois / sob demanda" → ELT; "ano→mês→dia" → drill-down. O gatilho mata a questão sozinho.
🔗 Conexão (não-ilha): lembra da Aula 0? Os 3 tipos de dado (estruturado/semi/não-estruturado) convivem no Data Lake. E a Aula 1 (CRISP-DM)? A fase de Dados (entender + preparar) é onde o ETL/ELT entra. Esta aula amarra as duas anteriores.

🔑 Bordão da aula: na FCC, arquitetura não se define — se ESCOLHE pelo gatilho.

📑 SUMÁRIO — os 5 blocos desta aula

Bloco 1 — O QUADRO DOS 4 🔴 o ouro máximo: Data Lake × DW × Data Mart × Lakehouse (schema-on-read! · DW não-volátil/sem bloqueio · arquitetura de medalhão bronze/prata/ouro).
Bloco 2 — ETL × ELT 🔴: transforma ANTES × DEPOIS, stage area, o macete do peixe.
Bloco 3 — OLAP / BI 🟡: drill-down × roll-up, slice × dice, fato × dimensão.
Bloco 4 — Big Data 🟡: os 5 Vs + a dupla HDFS + Spark.
Bloco 5 — Engenharia de Dados / pipelines 🟡 blindagem-órfão: DAG/Airflow, Kafka/streaming, ODS (só reconhecer).

▶️ Próximo (Bloco 1): o coração da aula — as 4 caixas onde o dado mora, ancoradas no galpão de provas do Felício no CEFAN e na mesa do Guilherme caçando a DABOA. É aqui que está o ponto. Bora.

Bloco 1 — O QUADRO DOS 4: Data Lake × DW × Mart × Lakehouse 🔴

🎯 O que travar neste bloco (o mais importante da aula):

As 4 caixas: Data Lake (lago, bruto) · DW (armazém, arrumado) · Data Mart (gôndola de um setor) · Lakehouse (lago + armazém juntos).
O gatilho-rei: schema-on-READ = Data Lake · schema-on-write = DW.
DW é não-volátil → não precisa de bloqueio por concorrência (aposta quente do Renato pro CE).
Lakehouse = medalhão (bronze/prata/ouro) + ACID (Delta Lake / Iceberg).

🔴 PROBABILIDADE PRO CE: ALTA-MÁXIMA. Os 3 sinais batem: caiu nas 3 provas-espelho (MT, GO, SP ⚡), o Renato aposta o máximo ("ALTÍSSIMA"), e está literal no edital ("Data Warehouse, Data Mart, Data Lake, Data Lakehouse"). Se você só tiver tempo pra UM tema da matéria inteira, é este.

🎬 Caso prático — o galpão de provas do CEFAN × o armazém da SEFAZ

Imagina dois jeitos de guardar coisa, Felício:

🏊 O galpão de equipamento do CEFAN (o LAGO): chega tudo lá dentro do jeito que veio — nadadeira molhada, óculos, touca, tênis de cross anfíbio, prancha de salvamento, sacos de areia da pista de obstáculos. Ninguém organiza na entrada. Você só decide a ordem na hora que vai usar ("hoje é natação utilitária → pego nadadeira + óculos"). Joga tudo bruto, organiza na leitura. ➡️ Isso é o Data Lake (schema-on-read).
📦 O almoxarifado oficial da unidade (o ARMAZÉM): aqui NADA entra sem ser etiquetado, conferido e posto na prateleira certa. Você arruma ANTES de guardar. Quando precisa, está tudo no lugar, pronto. ➡️ Isso é o Data Warehouse (schema-on-write).

Na mesa do Guilherme (SEFAZ): ele despeja NF-e em XML, EFD/SPED, logs, PDFs de auto de infração e planilhas — tudo bruto, multiformato — num Data Lake, pra não perder nada e auditar depois. Mas pra montar o painel de arrecadação de ICMS por região (consulta rápida, dado pronto), ele usa um Data Warehouse, onde o dado já entrou arrumado. Os dois convivem — e é aí que entra o Lakehouse, que junta os dois numa coisa só.

🧊 O QUADRO DOS 4 — caixa-mãe (decore esta tabela, é o ouro da aula)

	🌊 Data Lake	📦 Data Warehouse (DW)	🗄️ Data Mart	🏠 Data Lakehouse
Analogia	lago / galpão bruto	armazém arrumado	gôndola de 1 setor	lago + armazém juntos
Schema	schema-on-READ (na hora de ler)	schema-on-write (antes de gravar)	herda do DW (write)	os dois (lê bruto, serve estruturado)
Dado	bruto / raw, multiformato	tratado, estruturado, dimensional	recorte do DW por área	bruto + curado em camadas
Tipos de dado	os 3 (estrut/semi/não)	só estruturado	estruturado	os 3
Volatilidade	—	NÃO-volátil (só-leitura, histórico)	não-volátil	versionado (ACID)
Tecnologia	HDFS, S3	SGBD analítico, cubo OLAP	subconjunto do DW	Delta Lake / Apache Iceberg
Pra quem	engenheiro/cientista de dados	analista de negócio / BI	área específica (ex.: arrecadação)	todos

🔑 OS GATILHOS QUE MATAM A QUESTÃO (cola na parede):

schema-on-READ → Data Lake · schema-on-write → DW. (é o gatilho literal que caiu em MT e GO)
"dado bruto + múltiplos formatos + formato original preservado" → Data Lake.
"Delta Lake / Iceberg / ACID / controle transacional sobre metadados" → Lakehouse.
"recorte de UM setor / departamental" → Data Mart.

🧊 DW — as 4 características (a decoreba clássica que volta sempre)

O DW é definido por 4 palavras (Inmon) — decore com a inicial:

Orientado por assunto (por tema: arrecadação, contribuinte — não por aplicação).
Integrado (junta várias fontes num padrão único).
Não-volátil → depois de carregado, só leitura; dado não é apagado nem alterado.
Variável no tempo (guarda histórico: jan, fev, mar...).

🔑 O PULO DO GATO (aposta quente do Renato pro CE): como o DW é não-volátil / só-leitura, ele NÃO precisa de bloqueio por concorrência (lock). Bloqueio existe pra quem escreve ao mesmo tempo (banco transacional/OLTP); como ninguém reescreve o DW, não há disputa. Renato: "vimos na SEFAZ-RJ, na SEFAZ-BA, e tomara que caia na SEFAZ-CE." 🪤 E não confunda: "variável no tempo" ≠ "atualizado em tempo real". O DW guarda o histórico (carga em lote, periódica) — ele não fica recebendo atualização contínua. "DW em tempo real / atualizações contínuas" = ERRADO.

🧊 LAKEHOUSE + ARQUITETURA DE MEDALHÃO (o tópico-bomba do CE)

Lakehouse = o melhor dos dois mundos: a flexibilidade do Data Lake (guarda bruto, multiformato) + a confiabilidade do DW (consultas estruturadas, governança). A diferença-chave: o Lakehouse implementa propriedades ACID (Atomicidade, Consistência, Isolamento, Durabilidade) — transações confiáveis, controle de concorrência, versionamento — via Delta Lake ou Apache Iceberg.

E o dado anda em 3 camadas (a arquitetura de medalhão — decore bronze→prata→ouro):

🥉 Bronze (Raw)	🥈 Prata (Silver)	🥇 Ouro (Gold)
dado bruto, conforme recebido	dado limpo: tirou nulo/duplicata, padronizou	dado pronto: agregado, modelos dimensionais/views
quase sem transformação	integrado e normalizado	pronto pra BI / análise de negócio
engenheiro de dados	analista/cientista de dados	analista de negócio

🪤 A pegadinha da SP 2026: "bronze recebe dados já deduplicados" = ERRADO. Dedup é da PRATA. Bronze é o bruto que acabou de chegar.

🎙️ O PLACAR DOS PROFESSORES — O Quadro dos 4

Leitura do Camilo (não é nota de dossiê): aqui há consenso total e ninguém furou — é o tema mais bem previsto da matéria. A diferença é só quem cravou o Lakehouse (a novidade) com nome de tecnologia.

Prof	Apostou?	Veredito	O que disse (literal do dossiê)
Renato da Costa (prof do CE)	✅ máximo	🎯 CRAVOU	"Que probabilidade de Lakehouse cair? ALTÍSSIMA. Falei antes da SEFAZ-SP e CAIU. No edital de VOCÊS tem Data Lakehouse, então você TEM que saber." + medalhão bronze/prata/ouro
Renato (a aposta do lock)	✅	🔮 aposta pro CE	"DW sem bloqueio por concorrência — vimos na RJ, na BA, e tomara que caia no CE"
Felipe Mathias	✅	🎯 CRAVOU ⭐	"Data Lakehouse — a FCC tem AMADO cobrar" (Delta Lake/Iceberg) → acertou a SP em cheio
Emannuelle Gouveia	✅	🎯 cravou	macete "DW arrumado × Data Lake tudo misturado" + schema flexível
Léo Matos	✅	🎯 cravou	"DW é não-volátil, só pra consulta; Data Lake = brutos/raw + schema-on-read; Data Mart = pedaço setorial do DW"

A leitura do Camilo: quando todo mundo aposta no mesmo tema E ele caiu nas 3 provas E o edital cita nominalmente, isso não é aposta — é quase certeza. Decora o quadro dos 4, os gatilhos e o medalhão. É o ponto mais garantido que você vai estudar na matéria inteira.

🎯 QUESTÃO REAL — Data Lake schema-on-read (caiu de verdade ✅)

🎯 QUESTÃO REAL — Data Lake na GO (o mesmo gatilho, prova-irmã ✅)

🎯 QUESTÃO REAL — Data LAKEHOUSE (a novidade que o Renato cravou ✅)

🎯 Questão — teste agora

FCC — SEFAZ-SP · 2026 · tec 3847054

1 toque = candidata · 2 toques = riscar (eliminei)

A Secretaria da Fazenda de determinado Estado implementou uma solução corporativa para centralizar dados fiscais provenientes de múltiplas fontes heterogêneas: declarações de contribuintes, notas fiscais eletrônicas, dados cadastrais e informações de fiscalização. A equipe técnica precisava garantir escalabilidade, processamento de grandes volumes e capacidade analítica para identificar irregularidades tributárias. Após análise, optou-se por uma arquitetura que permite armazenar dados brutos em formato nativo, aplicar transformações sob demanda mediante ferramentas de processamento distribuído e disponibilizar estruturas otimizadas para consultas analíticas pelos auditores fiscais, mantendo a governança através de controles transacionais sobre os metadados. A arquitetura implementada

🪤 AS 5 PEGADINHAS QUE DECIDEM A QUESTÃO (a FCC repete essas)

schema-on-read = Data Lake / schema-on-write = DW. A FCC inverte. E inventa termos falsos: "schema-on-select", "schema-on-search" → não existem, risque.
DW NÃO precisa de bloqueio por concorrência (é só-leitura/não-volátil). "DW exige lock/controle de concorrência" → falso (aposta quente do Renato).
"DW em tempo real / atualizações contínuas" → falso. DW é carga em lote, periódica; "variável no tempo" = guarda histórico, ≠ atualiza ao vivo.
Bronze = bruto. "Bronze recebe dados já deduplicados" → falso, dedup é prata. (caiu na SP)
Lake convencional não tem ACID. O que dá ACID/transação ao lago é o Lakehouse (Delta/Iceberg). Não confunda os dois.

🔗 CONEXÃO — não é ilha, liga com a Aula 0 e a Aula 1

Aula 0 (tipos de dado): lembra das 3 gavetas (estruturado/semi/não-estruturado)? Elas convivem no Data Lake — é por isso que NF-e (XML/semi), cadastro (tabela/estrut.) e PDF (não-estrut.) caem todos juntos num enunciado de arquitetura. O DW, ao contrário, só aceita estruturado.
Aula 1 (CRISP-DM): a fase de Data Preparation (preparação) é onde o ETL/ELT (próximo bloco) acontece. A arquitetura é onde o dado mora; o CRISP-DM é como o projeto anda. Casam.
Leg. Tributária (o que você manda bem): o Data Lake da SEFAZ é onde caem as NF-e/EFD/SPED do ciclo do crédito tributário que você já domina. A prova veste o conceito de TI com a roupa fiscal que é tua casa.
Bordão da ponte: "a NF-e que eu fiscalizo entra bruta no Data Lake, vira arrumada no DW, e o Lakehouse junta os dois."

🔑 BIZU-SÍNTESE DO BLOCO (leve no bolso): "Lake = galpão bruto (schema-on-READ, os 3 tipos). DW = armazém arrumado (schema-on-write, não-volátil, SEM lock, só estruturado). Mart = gôndola de 1 setor. Lakehouse = lago + armazém (medalhão bronze/prata/ouro + ACID via Delta/Iceberg). Na dúvida: 'bruto/formato original' = Lake; 'ACID/Delta/Iceberg' = Lakehouse."

➡️ Próximo (Bloco 2): agora que você sabe ONDE o dado mora, vamos ver COMO ele entra lá — o ETL × ELT, a briga do "transforma antes × transforma depois", com o macete do peixe do Renato. É a dupla de pontos fáceis que o Renato cobriu em ~30 questões.

Bloco 2 — ETL × ELT (transforma ANTES × DEPOIS) 🔴

🎯 O que travar neste bloco:

ETL = transforma ANTES de carregar → vai pro DW (dado entra arrumado).
ELT = carrega bruto e transforma DEPOIS / sob demanda → vai pro Data Lake.
A ordem das letras é a ordem dos passos: E-T-L × E-L-T.
O stage area (área de estágio) = onde o dado faz escala antes da transformação.

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em MT (2×) e embutido em GO/SP. O Renato cobriu ~30 questões só de ETL — é mina de pontos fáceis. Gatilho: "transformação sob demanda / dado bruto primeiro" = ELT.

🎬 Caso prático — a Camila limpando o peixe (o macete do Renato)

A Camila voltou da feira com peixe pra você (atleta come bem 🐟). Pensa nos 3 verbos, nessa ordem:

🎣 Extrair (E) = pescar — tirar o peixe da água (= puxar o dado das fontes: NF-e, cadastros, planilhas legadas).
🔪 Transformar (T) = limpar — tirar a tripa, escamar, temperar (= limpar nulos, deduplicar, padronizar CNPJ e datas, criar chaves).
🍽️ Carregar (L / load) = comer — pôr na mesa pra consumir (= gravar no destino: DW ou Lake).

Agora a pergunta de ouro: você limpa o peixe ANTES ou DEPOIS de guardar?

🔪➡️🧊 Limpa e DEPOIS guarda (peixe limpo na geladeira, pronto) = ETL → destino DW (dado entra arrumado).
🧊➡️🔪 Guarda bruto e limpa NA HORA de comer (peixe inteiro no freezer, limpa quando for usar) = ELT → destino Data Lake (transforma sob demanda).

🧊 ETL × ELT — caixa-mãe (decore a ordem das letras)

	ETL (Extract → Transform → Load)	ELT (Extract → Load → Transform)
Transforma...	ANTES de carregar	DEPOIS de carregar (sob demanda)
Dado chega ao destino...	já tratado	bruto
Destino típico	Data Warehouse	Data Lake
Quando usar	qualidade/consistência primeiro, volume previsível	volume gigante, formatos variados, flexibilidade
Gatilho na prova	"transforma antes / qualidade / DW"	"dado bruto primeiro / transformação sob demanda / Data Lake"

🔑 O fluxo do ETL por dentro (o que o Renato martela): Extração (lê das fontes operacionais, NÃO do DW) → cai no stage area (área de estágio, escala temporária) → Transformação (limpa, deduplica, trata nulos/outliers, padroniza, cria chaves substitutas/surrogadas) → Carga no DW/Mart. ⭐ A transformação é a fase de MAIOR custo.

🎙️ O PLACAR DOS PROFESSORES — ETL × ELT

Leitura do Camilo: consenso de novo — nenhum órfão, todos previram. O Renato é a fonte-mãe (cobriu ~30 questões), e o macete do peixe é dele.

Prof	Apostou?	Veredito	O que disse (literal)
Renato da Costa (prof do CE)	✅ forte	🎯 CRAVOU	macete do peixe "pescar(extrai)→limpar(transforma)→comer(carrega)" · "falou ELT → pense Data Lake" · ~30 questões só de ETL
Léo Matos	✅	🎯 cravou	"esse processo é ETL... extrai, vai pro stage area. Isso é muito relevante" + pegadinha ELT×ETL
Felipe Mathias	✅	🎯 cravou	apostou ETLT e table switching (revisão GO)

A leitura do Camilo: o Renato é cirúrgico aqui. Confia nele e decora o gatilho: ELT → Data Lake. A FCC ganha dinheiro invertendo as siglas — quem sabe a ordem das letras = ordem dos passos não erra.

🎯 QUESTÃO REAL — o que é a TRANSFORMAÇÃO no ETL (caiu ✅)

🎯 QUESTÃO REAL — ELT no Data Lake (o gatilho direto ✅)

🪤 AS PEGADINHAS DO ETL/ELT (a FCC adora)

Inverter as siglas — ETL transforma antes, ELT transforma depois. A ordem das letras = ordem dos passos.
"Extração lê do DW" → falso. Extração lê das fontes operacionais (OLTP, legados), não do destino.
"Extração e carga acontecem ao mesmo tempo" → falso (são etapas sequenciais).
"Carga elimina nulos / trata outliers" → falso — tratamento de nulo/outlier é da Transformação, não da carga.
"ELT não permite / Data Lake não transforma" → falso — o ELT transforma sob demanda, depois.

🔑 BIZU-SÍNTESE DO BLOCO: "ETL = limpa o peixe ANTES de guardar (→ DW). ELT = guarda bruto e limpa na hora de comer (→ Lake). A ordem das letras é a ordem dos passos. Transformação = fase de maior custo. Extração lê do operacional, nunca do DW."

➡️ Próximo (Bloco 3): com o dado já no DW, o auditor navega o cubo de ICMS — sobe e desce nos níveis (ano→mês→dia). É o OLAP / BI: drill-down × roll-up, slice × dice. A FCC vive invertendo os dois.

Bloco 3 — OLAP / BI: navegando o cubo 🟡

🎯 O que travar neste bloco:

drill-down = DESCE de nível, AUMENTA o detalhe (ano → mês → dia).
roll-up = SOBE de nível, AGREGA (dia → mês → ano).
slice = fatia uma dimensão (fixa 1 valor); dice = corta várias dimensões (filtra um cubinho).
fato (o número: R$ de ICMS) × dimensão (o eixo: tempo, contribuinte, região).

🟡 PROBABILIDADE PRO CE: MÉDIA-ALTA. Caiu na GO (drill-down na dimensão tempo ⚡). A pegadinha nº 1 da FCC é inverter drill-down ↔ roll-up — Léo Matos: "a banca inverte os dois pra derrubar".

🎬 Caso prático — o Guilherme dando zoom no painel de ICMS

O Guilherme abre o painel de arrecadação de ICMS do estado (um cubo OLAP). Ele começa olhando o total do ano por região. Aí:

🔍 Dá ZOOM (drill-down): clica em "2026" e abre mês a mês; clica em "março" e abre dia a dia. Foi DESCENDO o nível → mais detalhe. É como o zoom da câmera: aproxima, vê o detalhe.
🔭 Dá ZOOM OUT (roll-up): volta do dia pro mês, do mês pro ano, da cidade pro estado. SOBE o nível → menos detalhe, mais resumo.
🍰 Fatia (slice): trava uma dimensão num valor — "só o contribuinte CNPJ X" → pega uma fatia do cubo.
🎲 Corta o cubinho (dice): filtra várias dimensões ao mesmo tempo — "março + região litoral + operação interestadual" → um subcubo.

É assim que ele acha o padrão: dá drill-down no mês suspeito, fatia o contribuinte, e a nota fria da DABOA aparece.

🧊 OLAP — as 4 operações (decore o sentido)

Operação	Movimento	Efeito	Exemplo (cubo de ICMS)
drill-down	DESCE ⬇️	+ detalhe (− granularidade de nível)	ano → mês → dia
roll-up (drill-up)	SOBE ⬆️	+ resumo (agrega)	dia → mês → ano · cidade → estado
slice	fatia 🍰	fixa 1 dimensão	só "março" / só "CNPJ X"
dice	corta 🎲	filtra várias dimensões	"março + litoral + interestadual"

🔑 Bizu colável: drill-down = DETALHA (desce) · roll-up = AGREGA (sobe). A própria palavra entrega: down = pra baixo (detalhe), up = pra cima (resumo).

E o vocabulário do cubo (fato × dimensão):

Fato = o número que se mede (R$ de ICMS arrecadado, qtd de notas). Mora na tabela fato.
Dimensão = o eixo / contexto por onde você navega (tempo, contribuinte, região, produto).
🪤 Não troque: "ICMS arrecadado" é fato; "por região/mês" são dimensões.

🎯 QUESTÃO REAL — drill-down na dimensão tempo (caiu ✅)

Prof	Apostou?	Veredito	O que disse (literal)
Renato da Costa (prof do CE)	✅	🎯 CRAVOU	"drill-down desce de nível → AUMENTA detalhe" · "caiu na SEFAZ-GO 2026"
Emannuelle Gouveia	✅	🎯 cravou	"drill-down (− granularidade de nível, + detalhe)" → caiu igual na GO
Léo Matos	✅	🎯 cravou conceito	"drill down × roll up muito cobrado... a banca inverte os dois pra derrubar"

🔑 BIZU-SÍNTESE DO BLOCO: "drill-DOWN = DETALHA (desce: ano→dia) · roll-UP = AGREGA (sobe: dia→ano) · slice = fatia 1 dimensão · dice = corta várias. Fato = o número (ICMS) · dimensão = o eixo (tempo/região). A banca VIVE invertendo down×up."

➡️ Próximo (Bloco 4): quando o volume de NF-e vira petabytes, entra o Big Data — os 5 Vs e a dupla que processa tudo: HDFS (guarda distribuído) + Spark (processa em memória). Munição barata e de alto retorno.

Bloco 4 — Big Data: os 5 Vs + HDFS/Spark 🟡

🎯 O que travar neste bloco:

Os 5 Vs: Volume · Velocidade · Variedade (os 3 obrigatórios) + Veracidade · Valor.
A dupla campeã: HDFS (armazena distribuído, tolerante a falha) + Spark (processa em memória, rápido).
Os Vs intrusos (distratores): "versionamento", "visibilidade", "validade" → NÃO são os Vs do Big Data.

🟡 PROBABILIDADE PRO CE: MÉDIA. A dupla HDFS+Spark caiu na MT ⚡. Os 5 Vs não caíram isolados em 2026 (vêm embutidos), mas o Renato manda decorar: "no MÍNIMO 5 Vs; os 3 obrigatórios são Volume/Velocidade/Variedade". Barato de estudar.

🎬 Caso prático — a SEFAZ afogada em NF-e (por que precisa de Big Data)

A SEFAZ-CE recebe milhões de NF-e por dia (Volume), em tempo quase real (Velocidade), em formatos variados — XML, PDF, planilha, log (Variedade). Um banco comum não aguenta. Aí entra o ecossistema Big Data:

🗄️ HDFS (Hadoop Distributed File System): quebra o arquivo gigante em blocos e espalha por vários servidores, com réplicas — se um servidor cai, o dado sobrevive (tolerante a falha). É o armazenamento distribuído.
⚡ Spark: processa os dados em memória (RAM), não toca o disco a cada passo → fica muito mais rápido que o MapReduce antigo, ótimo pra análises iterativas (rodar o mesmo cálculo muitas vezes, tipo treinar um modelo de risco).

🧊 OS 5 Vs DO BIG DATA (decore os 3 + 2)

V	O que é	Na SEFAZ
Volume ⭐	quantidade gigante	milhões de NF-e
Velocidade ⭐	rapidez de geração/processamento	NF-e chegando em tempo quase real
Variedade ⭐	formatos diversos (estrut/semi/não)	XML + PDF + log + planilha
Veracidade	confiabilidade/qualidade do dado	a nota é fidedigna?
Valor	o que se extrai de útil	achar a fraude, recuperar crédito

🔑 Bizu: os 3 obrigatórios (se a banca pedir "os 3 Vs") são Volume · Velocidade · Variedade. Os outros 2 (Veracidade · Valor) completam os 5. 🪤 Vs intrusos (distratores que a FCC inventa): versionamento · visibilidade · validade · viabilidade → NÃO existem na lista. Se aparecer, risque.

🎙️ O PLACAR DOS PROFESSORES — Big Data

Prof	Apostou?	Veredito	O que disse (literal)
Thiago Cavalcanti (FGV)	✅	🎯 cravou conceito	"HDFS blocos+réplicas / Spark ~100x em memória" → casou com a MT
Léo Matos	✅	⚠️ parcial	"as 5 V's: Volume, Velocidade, Variedade, Veracidade, Valor" (5 Vs não caíram isolados, mas conceito firme)
Renato da Costa (prof do CE)	✅	⚠️ parcial	"3 V's obrigatórios (Volume/Velocidade/Variedade); decore no mínimo 5"

A leitura do Camilo: honestidade — os 5 Vs NÃO caíram sozinhos nas 3 provas (vieram embutidos no conceito de Data Lake/dado não-estruturado). Mas é munição baratíssima: 10 min de decoreba. O que caiu de fato ⚡ foi a dupla HDFS+Spark (MT). Foca aí.

🎯 QUESTÃO REAL — HDFS + Spark (caiu ✅)

🔑 BIZU-SÍNTESE DO BLOCO: "5 Vs = Volume · Velocidade · Variedade (os 3 obrigatórios) + Veracidade + Valor. Intrusos (versionamento/visibilidade) = falsos. A dupla: HDFS GUARDA (distribuído, tolerante a falha) · Spark PROCESSA (em memória, iterativo, rápido). MapReduce = disco (lento); Spark = memória (rápido)."

➡️ Próximo (Bloco 5): o último — e é blindagem-órfão de ouro: a Engenharia de Dados (pipelines). O DAG/Airflow caiu na GO e ninguém da reta-final previu — ponto de graça pra quem souber. Mais o Kafka (streaming) e o ODS (só pra reconhecer).

Bloco 5 — Engenharia de Dados / pipelines: DAG, Kafka, ODS 🟡 (blindagem-órfão)

🎯 O que travar neste bloco:

DAG (Directed Acyclic Graph) = fluxo de pipeline com dependências explícitas + retries controlados + reexecução idempotente (ferramenta: Airflow).
Kafka = mensageria de streaming (tópicos particionados, produtores/consumidores assíncronos) — dado em tempo real.
ODS (Operational Data Store) = consolida dado operacional entre o staging e o DW — só reconhecer.

🟡 PROBABILIDADE PRO CE: MÉDIA (blindagem-órfão). O DAG caiu na GO ⚡ e NINGUÉM da reta-final cravou — ponto-cego de todo mundo = ponto "de graça" pra quem estudou. O edital do CE cita "Engenharia de Dados" isolado e nenhuma fonte tem módulo dedicado. Pílula curta, alto ROI.

🎬 Caso prático — a esteira automática da SEFAZ (o pipeline)

Todo dia de madrugada, a SEFAZ roda uma esteira automática: puxa as NF-e, limpa, cruza com cadastro, atualiza o painel. Mas tem ordem obrigatória — não dá pra cruzar antes de limpar, nem atualizar o painel antes de cruzar. E se um passo falhar (servidor caiu), tem que tentar de novo sem bagunçar o que já rodou.

Quem orquestra essa esteira com regras de dependência e re-tentativa é uma ferramenta de orquestração de pipelines (ex.: Airflow), e o fluxo é desenhado como um DAG:

Directed (dirigido): tem sentido — o passo B só roda depois do A.
Acyclic (acíclico): não tem volta/loop — não fica girando em círculo.
Graph (grafo): é um mapa de tarefas ligadas por dependências.

🧊 ENGENHARIA DE DADOS — os 3 conceitos (decore o essencial)

Conceito	O que é	Gatilho na prova
DAG (Airflow)	grafo dirigido + acíclico: dependências explícitas, retries controlados, reexecução idempotente	"controle de dependências + rastreabilidade + reprocessamento auditável"
Kafka (streaming)	mensageria assíncrona: tópicos particionados, produtores/consumidores, dado em tempo real	"fluxo contínuo / tempo real / eventos / particionamento de tópicos"
ODS	Operational Data Store: consolida dado operacional antes do DW	"consolida operacional entre staging e DW" — só reconhecer

🔑 Bizu do DAG: Acyclic = sem ciclo = não roda em círculo. Repara que é o mesmo "grafo" do banco de grafos que cai em NoSQL — Aula 3 — mas aqui o grafo é de tarefas, não de dados. 🔑 Idempotente = rodar de novo dá o mesmo resultado (não duplica o que já fez). Palavra-chave que a FCC adora.

🎙️ O PLACAR DOS PROFESSORES — Engenharia de Dados / DAG

Leitura do Camilo: este é o buraco da reta-final. Olha o placar:

Prof	Apostou?	Veredito	O que disse
Emannuelle Gouveia	🟡 raspão	⚠️ parcial	citou Airflow "de raspão" no ecossistema Big Data — não cravou DAG
Equipe TI (Simulado CE)	✅	🎯 salvou	cobriu pipelines com retries + checkpoints (tolerância a falha) e Kafka/streaming (particionamento de tópicos)
(demais profs)	❌	⚪ não cobriu	ninguém isolou DAG/orquestração

A leitura do Camilo: o DAG foi órfão na GO ⚡ — caiu e quase ninguém ensinou. É exatamente o tipo de ponto que separa quem passa de quem fica no corte: o concorrente larga em branco, você pega. Aqui é onde eu, o Camilo, agrego o que o curso do CE deixou no escuro. 10 min nesse bloco podem valer 1 questão inteira.

🎯 QUESTÃO REAL — DAG / orquestração de pipeline (caiu ✅ e foi órfão 👻)

🔑 BIZU-SÍNTESE DO BLOCO: "DAG = grafo dirigido + ACÍCLICO (sem volta), dependências explícitas, retries, idempotente (Airflow) → orquestra a esteira em lote. Kafka = streaming/tempo real (tópicos). ODS = consolida operacional antes do DW (só reconhecer). DAG foi órfão na GO — ponto de graça."

Bloco 6 — 🎓 FECHO + PLANO DE ATAQUE + DRILL

Para tudo e respira, Felício. 🫁 Esta foi pancada de foco — e era pra ser, porque aqui mora o maior ROI da matéria. Você saiu da Aula 0 sabendo classificar o dado, da Aula 1 sabendo o método (CRISP-DM), e agora sabe ONDE o dado mora e COMO ele entra lá. Esse é o terreno onde o Renato apostou dinheiro e onde a FCC caiu nas 3 provas. Guarda no bolso e leva o plano de ataque.

📦 O QUE LEVAR NO BOLSO (a aula numa olhada)

O QUADRO DOS 4 — a tabela-mãe da Aula 2 (cola no espelho):

Caixa Núcleo (1 frase) 🔑 Gatilho na prova Caso fiscal

🌊 Data Lake guarda bruto, multiformato, os 3 tipos schema-on-READ / "formato original" NF-e+EFD+PDF brutos pra auditar

📦 DW arrumado, não-volátil, só estruturado schema-on-write / "sem bloqueio de concorrência" painel de arrecadação de ICMS

🗄️ Data Mart recorte de 1 setor "departamental / área específica" só a área de arrecadação

🏠 Lakehouse Lake + DW juntos ACID / Delta Lake / Iceberg solução corporativa única (medalhão)

Caixa	Núcleo (1 frase)	🔑 Gatilho na prova	Caso fiscal
🌊 Data Lake	guarda bruto, multiformato, os 3 tipos	schema-on-READ / "formato original"	NF-e+EFD+PDF brutos pra auditar
📦 DW	arrumado, não-volátil, só estruturado	schema-on-write / "sem bloqueio de concorrência"	painel de arrecadação de ICMS
🗄️ Data Mart	recorte de 1 setor	"departamental / área específica"	só a área de arrecadação
🏠 Lakehouse	Lake + DW juntos	ACID / Delta Lake / Iceberg	solução corporativa única (medalhão)

E os 4 processos/conceitos que correm em cima do quadro:

🔄 ETL × ELT — ETL limpa o peixe ANTES (→ DW); ELT guarda bruto e limpa DEPOIS / sob demanda (→ Lake). Ordem das letras = ordem dos passos.
🔍 OLAP — drill-down = DETALHA (desce) · roll-up = AGREGA (sobe) · slice = 1 dimensão · dice = várias.
⚡ Big Data — 5 Vs (Volume·Velocidade·Variedade + Veracidade·Valor) · HDFS guarda · Spark processa em memória.
⚙️ Eng. de Dados — DAG (dirigido·acíclico·retries·idempotente / Airflow) · Kafka (streaming) · ODS (reconhecer).

🥇 O degrau que mais CRAVA — Lakehouse + medalhão (a aposta nº1 do Renato): Lake + DW = Lakehouse (ACID via Delta/Iceberg), em 3 camadas: 🥉 Bronze (bruto) → 🥈 Prata (limpo/dedup) → 🥇 Ouro (pronto pra BI). 🪤 "Bronze já deduplicado" = ERRADO (dedup é prata).

🎯 PLANO DE ATAQUE 80/20 (a ORDEM, não a lista)

Você não precisa gabaritar — precisa passar do corte que te eliminou. A ordem é por ROI:

1️⃣ DECORA o QUADRO DOS 4 + os gatilhos 🔴 — é o ouro máximo da matéria.

Caiu nas 3 provas, Renato aposta o máximo, edital cita nominalmente. Trava: schema-on-read = Lake · ACID/Delta/Iceberg = Lakehouse · DW não-volátil/sem lock · medalhão bronze→prata→ouro. 20 min = vários pontos.

2️⃣ TREINA ETL × ELT 🔴 — mina de pontos fáceis (Renato, ~30 questões).

O macete do peixe + a regra ELT → Data Lake. Pegadinha: inverter as siglas; extração lê do operacional, não do DW.

3️⃣ FECHA OLAP + Big Data 🟡 — blindagem de retorno médio.

drill-down×roll-up (não inverter!) + a dupla HDFS+Spark + os 5 Vs (10 min de decoreba).

4️⃣ PEGA o ÓRFÃO: DAG/Kafka 👻 — o ponto de graça.

Caiu na GO, ninguém previu. 10 min: DAG = dirigido·acíclico·retries·idempotente. É o ponto que o concorrente larga em branco.

🧭 Bordão do plano: arquitetura é o melhor custo×ponto da matéria — decora o quadro dos 4, treina ETL/ELT, e pega o DAG órfão de graça.

🎙️ O PLACAR FINAL — e o lembrete

Honestidade temporal: o CE ainda NÃO aconteceu (prova 01-02/08/2026) — tudo aqui é aposta 🔮, calibrada pelo que JÁ CAIU ✅ em MT/GO/SP 2026.

Tema Quem cravou Veredito real Pro CE

Lakehouse/medalhão Renato ("ALTÍSSIMA") · Mathias ✅ JÁ CAIU (SP) 🔴 ALTA-MÁX

Data Lake (schema-on-read) Renato · Léo · Emannuelle ✅ JÁ CAIU (MT+GO) 🔴 ALTA

ETL × ELT Renato · Léo · Mathias ✅ JÁ CAIU (MT 2×) 🔴 ALTA

OLAP drill-down Renato · Emannuelle ✅ JÁ CAIU (GO) 🟡 MÉD-ALTA

HDFS/Spark Thiago · Léo ✅ JÁ CAIU (MT) 🟡 MÉDIA

DW sem bloqueio Renato 🔮 aposta (RJ/BA antigas) 🔮 ALTA

DAG/orquestração (órfão) ✅ JÁ CAIU (GO, órfão) 👻 MÉDIA (graça)

Tema	Quem cravou	Veredito real	Pro CE
Lakehouse/medalhão	Renato ("ALTÍSSIMA") · Mathias	✅ JÁ CAIU (SP)	🔴 ALTA-MÁX
Data Lake (schema-on-read)	Renato · Léo · Emannuelle	✅ JÁ CAIU (MT+GO)	🔴 ALTA
ETL × ELT	Renato · Léo · Mathias	✅ JÁ CAIU (MT 2×)	🔴 ALTA
OLAP drill-down	Renato · Emannuelle	✅ JÁ CAIU (GO)	🟡 MÉD-ALTA
HDFS/Spark	Thiago · Léo	✅ JÁ CAIU (MT)	🟡 MÉDIA
DW sem bloqueio	Renato	🔮 aposta (RJ/BA antigas)	🔮 ALTA
DAG/orquestração	(órfão)	✅ JÁ CAIU (GO, órfão)	👻 MÉDIA (graça)

O professor de TI aqui é o Camilo. Neste bloco o Renato é ouro (é o curso do CE, cravou as apostas certas) — eu confiei nele e completei com o Mathias (Lakehouse) e o Léo (DW não-volátil). Você não decora cursinho: você escolhe a arquitetura pelo gatilho e deduz.

🔑 Bordão-mestre da Aula 2: o dado nasce bruto no Lake, vira arrumado no DW, e o Lakehouse junta os dois. Quem sabe o gatilho não erra arquitetura.

🧭 PRÓXIMA PARADA — Aula 3: Banco de Dados & SQL.

Você já sabe onde o dado mora. Na Aula 3 a gente desce pra dentro do banco: modelo relacional, normalização (1FN/2FN/3FN), NoSQL por caso de uso (grafo pra fraude, chave-valor pra cache) e — o ouro órfão — SQL ESCRITO na mão (GROUP BY/HAVING, CTE, funções de janela). É onde a FCC cobrou 8 questões só em MT. Vai ser drill puro, na mão, com cenário de SEFAZ. Te espero lá. 🪜

🎯 HORA DE RESOLVER — Drill da Aula 2

🔵 Bate o olho e resolve as que você já sabe · 🔴 Corrige com calma as que travar. Todas FCC, conferidas no banco. As primeiras são o ouro (Lake/Lakehouse/ETL — o que crava); depois vêm OLAP, Big Data e o DAG órfão. Treina o gatilho, não a decoreba solta.

🎯 Questões pra resolver

👆 Marque a sua (1 toque) · risque as eliminadas (2 toques) · Conferir mostra o gabarito. A resolução comentada abre no TEC.

Questão 1 (FCC · SEFAZ-MT · 2026 · tec 3863416)

Uma SEFAZ precisa armazenar grandes volumes de NF-e/CT-e e declarações em múltiplos formatos, preservando dados originais para auditoria e permitindo leitura com esquemas definidos na consulta. A arquitetura que atende adequadamente a essa necessidade é:

Questão 2 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975954)

Observando um órgão estadual que integra NF-e, EFD/SPED, logs de sistemas, dados semiestruturados de convênios e arquivos em múltiplos formatos, preservando os dados no formato original para usos analíticos futuros, a característica arquitetural que define um data lake no cenário descrito é

Questão 3 (FCC · SEFAZ-SP · 2026 · tec 3847054)

Questão 4 (FCC · SEFAZ-MT · 2026 · tec 3863430)

Considerando um pipeline diário que consolida arquivos CSV/JSON de sistemas legados para relatórios de arrecadação e que utiliza Pandas para padronizar datas, normalizar códigos e agregar valores, a etapa que caracteriza corretamente a transformação no processo ETL é

Questão 5 (FCC · SEFAZ-MT · 2026 · tec 3863432)

Uma SEFAZ carrega dados fiscais brutos em um data lake para retenção e só realiza transformações sob demanda no ambiente analítico. Nesse caso, o padrão de engenharia de dados adequado é

Questão 6 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975952)

Tendo em vista uma Secretaria Estadual que analisa o ICMS por contribuinte, período fiscal e região, e que precisa permitir aos auditores comparar no menor tempo
possível valores consolidados e detalhados entre níveis temporais (ano → mês → dia), a operação de OLAP que atende ao requisito apresentado é a

Questão 7 (FCC · SEFAZ-MT · 2026 · tec 3863419)

Considere um ambiente fazendário com petabytes de documentos fiscais em cluster, exigindo armazenamento distribuído tolerante a falhas e também execução de análises iterativas com menor leitura repetida em disco. Nesse cenário, a combinação de sistema/framework que atende corretamente às necessidades é:

Questão 8 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975950)

Considerando uma Secretaria Estadual que integra periodicamente NF-e, CT-e e declarações eletrônicas de múltiplos legados, exigindo reprocessamento auditável,
controle explícito de dependências e rastreabilidade temporal das execuções, a característica de uma solução de orquestração de pipelines que atende ao requisito
apresentado é a

Última atualização: 22/06/2026 12:08 — Camilo

Aula 02 — Arquitetura & Engenharia de Dados (onde o dado MORA — e o ouro do CE)

🩸 Por que ESTA aula vale ouro

🗺️ MINI-MAPA DA SÉRIE — 8 aulas (onde mora o OURO)

🎙️ O PLACAR DOS PROFESSORES (faro FCC neste bloco)

🧠 BIZU DA BANCA — como a FCC pensa Arquitetura

📑 SUMÁRIO — os 5 blocos desta aula

Bloco 1 — O QUADRO DOS 4: Data Lake × DW × Mart × Lakehouse 🔴

🎬 Caso prático — o galpão de provas do CEFAN × o armazém da SEFAZ

🎯 QUESTÃO REAL — Data Lake schema-on-read (caiu de verdade ✅)

🎯 QUESTÃO REAL — Data Lake na GO (o mesmo gatilho, prova-irmã ✅)

🎯 QUESTÃO REAL — Data LAKEHOUSE (a novidade que o Renato cravou ✅)

Bloco 2 — ETL × ELT (transforma ANTES × DEPOIS) 🔴

🎬 Caso prático — a Camila limpando o peixe (o macete do Renato)

🎯 QUESTÃO REAL — o que é a TRANSFORMAÇÃO no ETL (caiu ✅)

🎯 QUESTÃO REAL — ELT no Data Lake (o gatilho direto ✅)

Bloco 3 — OLAP / BI: navegando o cubo 🟡

🎬 Caso prático — o Guilherme dando zoom no painel de ICMS

🎯 QUESTÃO REAL — drill-down na dimensão tempo (caiu ✅)

Bloco 4 — Big Data: os 5 Vs + HDFS/Spark 🟡

🎬 Caso prático — a SEFAZ afogada em NF-e (por que precisa de Big Data)

🎯 QUESTÃO REAL — HDFS + Spark (caiu ✅)

Bloco 5 — Engenharia de Dados / pipelines: DAG, Kafka, ODS 🟡 (blindagem-órfão)

🎬 Caso prático — a esteira automática da SEFAZ (o pipeline)

🎯 QUESTÃO REAL — DAG / orquestração de pipeline (caiu ✅ e foi órfão 👻)

Bloco 6 — 🎓 FECHO + PLANO DE ATAQUE + DRILL

📦 O QUE LEVAR NO BOLSO (a aula numa olhada)

🎯 PLANO DE ATAQUE 80/20 (a ORDEM, não a lista)

🎙️ O PLACAR FINAL — e o lembrete

🎯 HORA DE RESOLVER — Drill da Aula 2

🎯 Questões pra resolver