Aula 02 — Arquitetura & Engenharia de Dados (onde o dado MORA — e o ouro do CE)

🎙️ Sou o Camilo, teu professor de TI. Senta que aqui é pancada de foco — pega firme. Esta é, na minha leitura, a aula de maior ROI da série inteira de Fluência. É o chão de fábrica: onde o dado nasce, é guardado e vira ponto na prova. Se a Aula 0 foi a entrada do oceano e a Aula 1 foi o método (CRISP-DM), esta aqui é o terreno — e é onde o Renato (o prof oficial do CE) cravou as apostas mais fortes dele.


🩸 Por que ESTA aula vale ouro


🏅 Depoimento de aprovado

Gabriel Santana — 1º lugar SEFAZ-GO 2026 (banca FCC). (GO-2026 é o espelho do edital do CE — mesma banca, edital reciclado.) 🔗 Fonte: live LS Concursos c/ Prof. Lucas Eduardo · DEPOIMENTOS_APROVADOS.md (depoimento #1)


🗺️ MINI-MAPA DA SÉRIE — 8 aulas (onde mora o OURO)

Aula Tema 💰 Onde está o ponto
00 Fundamentos (tipos de dado, DIKW, ciclo de vida) 🛡️ blindagem — JÁ NO AR
01 CRISP-DM (as 6 fases na ordem) 🥉 alto — JÁ NO AR
02 ⬅️ (esta) Arquitetura & Eng. de Dados (DW/Mart/Lake/Lakehouse · ETL×ELT · OLAP · Big Data · DAG) 🥇 OURO — caiu nas 3 provas
03 Banco de Dados & SQL (relacional, normalização, NoSQL, SQL na mão) 🥇 OURO — SQL escrito despenca
04 Machine Learning & IA (super × não-sup, cluster, over/underfit, Lasso/Ridge) 👑 O OURO MÁXIMO — 7 de 11 em SP
05 Governança & Ética de Dados (qualidade, viés, IA generativa) 🟡 médio
06 Segurança / LGPD / Sigilo Fiscal (CID, LGPD, CTN 198 + IN SEFAZ-CE 92/21) 🟡 médio
07 Python / Pandas / NumPy (Pandas, leitura de código) 👻 órfão eliminatório (hedge)

🔑 Leitura do mapa: Aulas 02 → 04 são o coração da nota. Esta Aula 02 é a que tem melhor relação custo × ponto: conceito fixo, caiu nas 3, e o prof do CE aposta forte. Domine aqui antes de encarar o ML pesado da Aula 4.


🎙️ O PLACAR DOS PROFESSORES (faro FCC neste bloco)

Estes são os profs que a gente "ouviu" pra montar a munição. Eles são INSUMO — a palavra final é minha. Faro = quão bem cada um previu o que a FCC 2026 cobrou (MT/GO/SP — provas que JÁ aconteceram). Neste bloco, a notícia é boa: quase ninguém furou — arquitetura é conceito estável e todo mundo acertou bem.

Prof Faro (neste bloco) Confie nele para...
Renato da Costa (prof oficial do CE) 9/10 aqui DW/Lake/Lakehouse, medalhão, ETL×ELT (~30 questões), DW sem bloqueio por concorrência — a fonte-mãe deste bloco
Léo Matos (Data Fluency) 8/10 DW não-volátil, Data Lake schema-on-read, Data Mart, drill-down×roll-up
Felipe Mathias 9/10 cravou Lakehouse (Delta/Iceberg) exato na SP, ETLT, leitura de código
Emannuelle Gouveia 8/10 OLAP/drill-down, Data Lake, "DW arrumado × Lake misturado"
Thiago Cavalcanti (FGV) 7/10 conceito limpo de HDFS/Spark (vale o conceito, não a banca)

⚠️ HONESTIDADE — onde o Renato é OURO e onde tropeça: o Renato é fraco em ML/SQL (Aula 3 e 4), mas neste bloco ele é a fonte-mãe. Ele tem o curso do CE, vincula o edital, e cravou as apostas certas (Lakehouse, medalhão, DW sem bloqueio). 🧭 Tradução do Camilo: aqui eu confio no Renato — e completo com o Mathias no detalhe do Lakehouse/ACID e com o Léo no DW não-volátil.


🧠 BIZU DA BANCA — como a FCC pensa Arquitetura

🔑 Bordão da aula: na FCC, arquitetura não se define — se ESCOLHE pelo gatilho.


📑 SUMÁRIO — os 5 blocos desta aula

  1. Bloco 1 — O QUADRO DOS 4 🔴 o ouro máximo: Data Lake × DW × Data Mart × Lakehouse (schema-on-read! · DW não-volátil/sem bloqueio · arquitetura de medalhão bronze/prata/ouro).

  2. Bloco 2 — ETL × ELT 🔴: transforma ANTES × DEPOIS, stage area, o macete do peixe.

  3. Bloco 3 — OLAP / BI 🟡: drill-down × roll-up, slice × dice, fato × dimensão.

  4. Bloco 4 — Big Data 🟡: os 5 Vs + a dupla HDFS + Spark.

  5. Bloco 5 — Engenharia de Dados / pipelines 🟡 blindagem-órfão: DAG/Airflow, Kafka/streaming, ODS (só reconhecer).


▶️ Próximo (Bloco 1): o coração da aula — as 4 caixas onde o dado mora, ancoradas no galpão de provas do Felício no CEFAN e na mesa do Guilherme caçando a DABOA. É aqui que está o ponto. Bora.


Bloco 1 — O QUADRO DOS 4: Data Lake × DW × Mart × Lakehouse 🔴

🎯 O que travar neste bloco (o mais importante da aula):

🔴 PROBABILIDADE PRO CE: ALTA-MÁXIMA. Os 3 sinais batem: caiu nas 3 provas-espelho (MT, GO, SP ⚡), o Renato aposta o máximo ("ALTÍSSIMA"), e está literal no edital ("Data Warehouse, Data Mart, Data Lake, Data Lakehouse"). Se você só tiver tempo pra UM tema da matéria inteira, é este.


🎬 Caso prático — o galpão de provas do CEFAN × o armazém da SEFAZ

Imagina dois jeitos de guardar coisa, Felício:

Na mesa do Guilherme (SEFAZ): ele despeja NF-e em XML, EFD/SPED, logs, PDFs de auto de infração e planilhas — tudo bruto, multiformato — num Data Lake, pra não perder nada e auditar depois. Mas pra montar o painel de arrecadação de ICMS por região (consulta rápida, dado pronto), ele usa um Data Warehouse, onde o dado já entrou arrumado. Os dois convivem — e é aí que entra o Lakehouse, que junta os dois numa coisa só.

💡 A sacada: Data Lake é o galpão bagunçado de propósito (guarda tudo, decide na hora); DW é o almoxarifado disciplinado (arruma na porta). A FCC adora trocar os dois.


🧊 O QUADRO DOS 4 — caixa-mãe (decore esta tabela, é o ouro da aula)

🌊 Data Lake 📦 Data Warehouse (DW) 🗄️ Data Mart 🏠 Data Lakehouse
Analogia lago / galpão bruto armazém arrumado gôndola de 1 setor lago + armazém juntos
Schema schema-on-READ (na hora de ler) schema-on-write (antes de gravar) herda do DW (write) os dois (lê bruto, serve estruturado)
Dado bruto / raw, multiformato tratado, estruturado, dimensional recorte do DW por área bruto + curado em camadas
Tipos de dado os 3 (estrut/semi/não) estruturado estruturado os 3
Volatilidade NÃO-volátil (só-leitura, histórico) não-volátil versionado (ACID)
Tecnologia HDFS, S3 SGBD analítico, cubo OLAP subconjunto do DW Delta Lake / Apache Iceberg
Pra quem engenheiro/cientista de dados analista de negócio / BI área específica (ex.: arrecadação) todos

🔑 OS GATILHOS QUE MATAM A QUESTÃO (cola na parede):


🧊 DW — as 4 características (a decoreba clássica que volta sempre)

O DW é definido por 4 palavras (Inmon) — decore com a inicial:

🔑 O PULO DO GATO (aposta quente do Renato pro CE): como o DW é não-volátil / só-leitura, ele NÃO precisa de bloqueio por concorrência (lock). Bloqueio existe pra quem escreve ao mesmo tempo (banco transacional/OLTP); como ninguém reescreve o DW, não há disputa. Renato: "vimos na SEFAZ-RJ, na SEFAZ-BA, e tomara que caia na SEFAZ-CE." 🪤 E não confunda: "variável no tempo" ≠ "atualizado em tempo real". O DW guarda o histórico (carga em lote, periódica) — ele não fica recebendo atualização contínua. "DW em tempo real / atualizações contínuas" = ERRADO.


🧊 LAKEHOUSE + ARQUITETURA DE MEDALHÃO (o tópico-bomba do CE)

Lakehouse = o melhor dos dois mundos: a flexibilidade do Data Lake (guarda bruto, multiformato) + a confiabilidade do DW (consultas estruturadas, governança). A diferença-chave: o Lakehouse implementa propriedades ACID (Atomicidade, Consistência, Isolamento, Durabilidade) — transações confiáveis, controle de concorrência, versionamento — via Delta Lake ou Apache Iceberg.

E o dado anda em 3 camadas (a arquitetura de medalhão — decore bronze→prata→ouro):

🥉 Bronze (Raw) 🥈 Prata (Silver) 🥇 Ouro (Gold)
dado bruto, conforme recebido dado limpo: tirou nulo/duplicata, padronizou dado pronto: agregado, modelos dimensionais/views
quase sem transformação integrado e normalizado pronto pra BI / análise de negócio
engenheiro de dados analista/cientista de dados analista de negócio

🪤 A pegadinha da SP 2026: "bronze recebe dados já deduplicados" = ERRADO. Dedup é da PRATA. Bronze é o bruto que acabou de chegar.


🎙️ O PLACAR DOS PROFESSORES — O Quadro dos 4

Leitura do Camilo (não é nota de dossiê): aqui há consenso total e ninguém furou — é o tema mais bem previsto da matéria. A diferença é só quem cravou o Lakehouse (a novidade) com nome de tecnologia.

Prof Apostou? Veredito O que disse (literal do dossiê)
Renato da Costa (prof do CE) ✅ máximo 🎯 CRAVOU "Que probabilidade de Lakehouse cair? ALTÍSSIMA. Falei antes da SEFAZ-SP e CAIU. No edital de VOCÊS tem Data Lakehouse, então você TEM que saber." + medalhão bronze/prata/ouro
Renato (a aposta do lock) 🔮 aposta pro CE "DW sem bloqueio por concorrência — vimos na RJ, na BA, e tomara que caia no CE"
Felipe Mathias 🎯 CRAVOU "Data Lakehouse — a FCC tem AMADO cobrar" (Delta Lake/Iceberg) → acertou a SP em cheio
Emannuelle Gouveia 🎯 cravou macete "DW arrumado × Data Lake tudo misturado" + schema flexível
Léo Matos 🎯 cravou "DW é não-volátil, só pra consulta; Data Lake = brutos/raw + schema-on-read; Data Mart = pedaço setorial do DW"

A leitura do Camilo: quando todo mundo aposta no mesmo tema E ele caiu nas 3 provas E o edital cita nominalmente, isso não é aposta — é quase certeza. Decora o quadro dos 4, os gatilhos e o medalhão. É o ponto mais garantido que você vai estudar na matéria inteira.


🎯 QUESTÃO REAL — Data Lake schema-on-read (caiu de verdade ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT · 2026 · tec 3863416
1 toque = candidata · 2 toques = riscar (eliminei)

Uma SEFAZ precisa armazenar grandes volumes de NF-e/CT-e e declarações em múltiplos formatos, preservando dados originais para auditoria e permitindo leitura com esquemas definidos na consulta. A arquitetura que atende adequadamente a essa necessidade é:


🎯 QUESTÃO REAL — Data Lake na GO (o mesmo gatilho, prova-irmã ✅)

🎯 Questão — teste agora
FCC — AFRE GO/SEFAZ-GO · 2026 · tec 3975954
1 toque = candidata · 2 toques = riscar (eliminei)

Observando um órgão estadual que integra NF-e, EFD/SPED, logs de sistemas, dados semiestruturados de convênios e arquivos em múltiplos formatos, preservando os dados no formato original para usos analíticos futuros, a característica arquitetural que define um data lake no cenário descrito é


🎯 QUESTÃO REAL — Data LAKEHOUSE (a novidade que o Renato cravou ✅)

🎯 Questão — teste agora
FCC — SEFAZ-SP · 2026 · tec 3847054
1 toque = candidata · 2 toques = riscar (eliminei)

A Secretaria da Fazenda de determinado Estado implementou uma solução corporativa para centralizar dados fiscais provenientes de múltiplas fontes heterogêneas: declarações de contribuintes, notas fiscais eletrônicas, dados cadastrais e informações de fiscalização. A equipe técnica precisava garantir escalabilidade, processamento de grandes volumes e capacidade analítica para identificar irregularidades tributárias. Após análise, optou-se por uma arquitetura que permite armazenar dados brutos em formato nativo, aplicar transformações sob demanda mediante ferramentas de processamento distribuído e disponibilizar estruturas otimizadas para consultas analíticas pelos auditores fiscais, mantendo a governança através de controles transacionais sobre os metadados. A arquitetura implementada


🪤 AS 5 PEGADINHAS QUE DECIDEM A QUESTÃO (a FCC repete essas)

  1. schema-on-read = Data Lake / schema-on-write = DW. A FCC inverte. E inventa termos falsos: "schema-on-select", "schema-on-search" → não existem, risque.

  2. DW NÃO precisa de bloqueio por concorrência (é só-leitura/não-volátil). "DW exige lock/controle de concorrência" → falso (aposta quente do Renato).

  3. "DW em tempo real / atualizações contínuas"falso. DW é carga em lote, periódica; "variável no tempo" = guarda histórico, ≠ atualiza ao vivo.

  4. Bronze = bruto. "Bronze recebe dados já deduplicados" → falso, dedup é prata. (caiu na SP)

  5. Lake convencional não tem ACID. O que dá ACID/transação ao lago é o Lakehouse (Delta/Iceberg). Não confunda os dois.


🔗 CONEXÃO — não é ilha, liga com a Aula 0 e a Aula 1


🔑 BIZU-SÍNTESE DO BLOCO (leve no bolso): "Lake = galpão bruto (schema-on-READ, os 3 tipos). DW = armazém arrumado (schema-on-write, não-volátil, SEM lock, só estruturado). Mart = gôndola de 1 setor. Lakehouse = lago + armazém (medalhão bronze/prata/ouro + ACID via Delta/Iceberg). Na dúvida: 'bruto/formato original' = Lake; 'ACID/Delta/Iceberg' = Lakehouse."


➡️ Próximo (Bloco 2): agora que você sabe ONDE o dado mora, vamos ver COMO ele entra lá — o ETL × ELT, a briga do "transforma antes × transforma depois", com o macete do peixe do Renato. É a dupla de pontos fáceis que o Renato cobriu em ~30 questões.


Bloco 2 — ETL × ELT (transforma ANTES × DEPOIS) 🔴

🎯 O que travar neste bloco:

🔴 PROBABILIDADE PRO CE: ALTA. Caiu em MT (2×) e embutido em GO/SP. O Renato cobriu ~30 questões só de ETL — é mina de pontos fáceis. Gatilho: "transformação sob demanda / dado bruto primeiro" = ELT.


🎬 Caso prático — a Camila limpando o peixe (o macete do Renato)

A Camila voltou da feira com peixe pra você (atleta come bem 🐟). Pensa nos 3 verbos, nessa ordem:

  1. 🎣 Extrair (E) = pescar — tirar o peixe da água (= puxar o dado das fontes: NF-e, cadastros, planilhas legadas).

  2. 🔪 Transformar (T) = limpar — tirar a tripa, escamar, temperar (= limpar nulos, deduplicar, padronizar CNPJ e datas, criar chaves).

  3. 🍽️ Carregar (L / load) = comer — pôr na mesa pra consumir (= gravar no destino: DW ou Lake).

Agora a pergunta de ouro: você limpa o peixe ANTES ou DEPOIS de guardar?

💡 A sacada: é o mesmo galpão bruto × armazém arrumado do Bloco 1, só que agora olhando o processo: ETL arruma na porta (DW); ELT joga bruto e arruma depois (Lake).


🧊 ETL × ELT — caixa-mãe (decore a ordem das letras)

ETL (Extract → Transform → Load) ELT (Extract → Load → Transform)
Transforma... ANTES de carregar DEPOIS de carregar (sob demanda)
Dado chega ao destino... já tratado bruto
Destino típico Data Warehouse Data Lake
Quando usar qualidade/consistência primeiro, volume previsível volume gigante, formatos variados, flexibilidade
Gatilho na prova "transforma antes / qualidade / DW" "dado bruto primeiro / transformação sob demanda / Data Lake"

🔑 O fluxo do ETL por dentro (o que o Renato martela): Extração (lê das fontes operacionais, NÃO do DW) → cai no stage area (área de estágio, escala temporária) → Transformação (limpa, deduplica, trata nulos/outliers, padroniza, cria chaves substitutas/surrogadas) → Carga no DW/Mart. ⭐ A transformação é a fase de MAIOR custo.


🎙️ O PLACAR DOS PROFESSORES — ETL × ELT

Leitura do Camilo: consenso de novo — nenhum órfão, todos previram. O Renato é a fonte-mãe (cobriu ~30 questões), e o macete do peixe é dele.

Prof Apostou? Veredito O que disse (literal)
Renato da Costa (prof do CE) ✅ forte 🎯 CRAVOU macete do peixe "pescar(extrai)→limpar(transforma)→comer(carrega)" · "falou ELT → pense Data Lake" · ~30 questões só de ETL
Léo Matos 🎯 cravou "esse processo é ETL... extrai, vai pro stage area. Isso é muito relevante" + pegadinha ELT×ETL
Felipe Mathias 🎯 cravou apostou ETLT e table switching (revisão GO)

A leitura do Camilo: o Renato é cirúrgico aqui. Confia nele e decora o gatilho: ELT → Data Lake. A FCC ganha dinheiro invertendo as siglas — quem sabe a ordem das letras = ordem dos passos não erra.


🎯 QUESTÃO REAL — o que é a TRANSFORMAÇÃO no ETL (caiu ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT · 2026 · tec 3863430
1 toque = candidata · 2 toques = riscar (eliminei)

Considerando um pipeline diário que consolida arquivos CSV/JSON de sistemas legados para relatórios de arrecadação e que utiliza Pandas para padronizar datas, normalizar códigos e agregar valores, a etapa que caracteriza corretamente a transformação no processo ETL é


🎯 QUESTÃO REAL — ELT no Data Lake (o gatilho direto ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT · 2026 · tec 3863432
1 toque = candidata · 2 toques = riscar (eliminei)

Uma SEFAZ carrega dados fiscais brutos em um data lake para retenção e só realiza transformações sob demanda no ambiente analítico. Nesse caso, o padrão de engenharia de dados adequado é


🪤 AS PEGADINHAS DO ETL/ELT (a FCC adora)

  1. Inverter as siglas — ETL transforma antes, ELT transforma depois. A ordem das letras = ordem dos passos.

  2. "Extração lê do DW"falso. Extração lê das fontes operacionais (OLTP, legados), não do destino.

  3. "Extração e carga acontecem ao mesmo tempo" → falso (são etapas sequenciais).

  4. "Carga elimina nulos / trata outliers" → falso — tratamento de nulo/outlier é da Transformação, não da carga.

  5. "ELT não permite / Data Lake não transforma" → falso — o ELT transforma sob demanda, depois.


🔗 CONEXÃO: o ETL/ELT é exatamente a fase de Data Preparation do CRISP-DM (Aula 1) — "limpar e preparar o dado" tem nome de processo aqui. E o destino decide o processo: ETL → DW · ELT → Lake (amarra com o Bloco 1). É tudo a mesma história contada de ângulos diferentes.


🔑 BIZU-SÍNTESE DO BLOCO: "ETL = limpa o peixe ANTES de guardar (→ DW). ELT = guarda bruto e limpa na hora de comer (→ Lake). A ordem das letras é a ordem dos passos. Transformação = fase de maior custo. Extração lê do operacional, nunca do DW."


➡️ Próximo (Bloco 3): com o dado já no DW, o auditor navega o cubo de ICMS — sobe e desce nos níveis (ano→mês→dia). É o OLAP / BI: drill-down × roll-up, slice × dice. A FCC vive invertendo os dois.


Bloco 3 — OLAP / BI: navegando o cubo 🟡

🎯 O que travar neste bloco:

🟡 PROBABILIDADE PRO CE: MÉDIA-ALTA. Caiu na GO (drill-down na dimensão tempo ⚡). A pegadinha nº 1 da FCC é inverter drill-down ↔ roll-up — Léo Matos: "a banca inverte os dois pra derrubar".


🎬 Caso prático — o Guilherme dando zoom no painel de ICMS

O Guilherme abre o painel de arrecadação de ICMS do estado (um cubo OLAP). Ele começa olhando o total do ano por região. Aí:

É assim que ele acha o padrão: dá drill-down no mês suspeito, fatia o contribuinte, e a nota fria da DABOA aparece.


🧊 OLAP — as 4 operações (decore o sentido)

Operação Movimento Efeito Exemplo (cubo de ICMS)
drill-down DESCE ⬇️ + detalhe (− granularidade de nível) ano → mês → dia
roll-up (drill-up) SOBE ⬆️ + resumo (agrega) dia → mês → ano · cidade → estado
slice fatia 🍰 fixa 1 dimensão só "março" / só "CNPJ X"
dice corta 🎲 filtra várias dimensões "março + litoral + interestadual"

🔑 Bizu colável: drill-down = DETALHA (desce) · roll-up = AGREGA (sobe). A própria palavra entrega: down = pra baixo (detalhe), up = pra cima (resumo).

E o vocabulário do cubo (fato × dimensão):


🎙️ O PLACAR DOS PROFESSORES — OLAP / drill-down

Prof Apostou? Veredito O que disse (literal)
Renato da Costa (prof do CE) 🎯 CRAVOU "drill-down desce de nível → AUMENTA detalhe" · "caiu na SEFAZ-GO 2026"
Emannuelle Gouveia 🎯 cravou "drill-down (− granularidade de nível, + detalhe)" → caiu igual na GO
Léo Matos 🎯 cravou conceito "drill down × roll up muito cobrado... a banca inverte os dois pra derrubar"

A leitura do Camilo: consenso. A única coisa que decide a questão é não inverter drill-down e roll-up — e a FCC vai tentar inverter. Decora o "down = detalhe" e pronto.


🎯 QUESTÃO REAL — drill-down na dimensão tempo (caiu ✅)

🎯 Questão — teste agora
FCC — AFRE GO/SEFAZ-GO · 2026 · tec 3975952
1 toque = candidata · 2 toques = riscar (eliminei)

Tendo em vista uma Secretaria Estadual que analisa o ICMS por contribuinte, período fiscal e região, e que precisa permitir aos auditores comparar valores consolidados e detalhados entre níveis temporais (ano → mês → dia), a operação de OLAP que atende ao requisito é a


🪤 PEGADINHAS DO OLAP:

  1. Inverter drill-down ↔ roll-up — a nº 1. "drill-down agrega" → falso (drill-down DETALHA).

  2. Trocar slice por dice — slice = 1 dimensão fixa; dice = várias filtradas.

  3. Confundir fato com dimensão — fato é o número medido; dimensão é o eixo.


🔗 CONEXÃO: o cubo OLAP vive no DW (Bloco 1) — é a camada Ouro do medalhão, o dado pronto pra BI. E o BI é o retrovisor da Aula 0 (olha pra trás: descritiva/diagnóstica). Drill-down/roll-up é como o auditor navega esse passado em busca do padrão.


🔑 BIZU-SÍNTESE DO BLOCO: "drill-DOWN = DETALHA (desce: ano→dia) · roll-UP = AGREGA (sobe: dia→ano) · slice = fatia 1 dimensão · dice = corta várias. Fato = o número (ICMS) · dimensão = o eixo (tempo/região). A banca VIVE invertendo down×up."


➡️ Próximo (Bloco 4): quando o volume de NF-e vira petabytes, entra o Big Data — os 5 Vs e a dupla que processa tudo: HDFS (guarda distribuído) + Spark (processa em memória). Munição barata e de alto retorno.


Bloco 4 — Big Data: os 5 Vs + HDFS/Spark 🟡

🎯 O que travar neste bloco:

🟡 PROBABILIDADE PRO CE: MÉDIA. A dupla HDFS+Spark caiu na MT ⚡. Os 5 Vs não caíram isolados em 2026 (vêm embutidos), mas o Renato manda decorar: "no MÍNIMO 5 Vs; os 3 obrigatórios são Volume/Velocidade/Variedade". Barato de estudar.


🎬 Caso prático — a SEFAZ afogada em NF-e (por que precisa de Big Data)

A SEFAZ-CE recebe milhões de NF-e por dia (Volume), em tempo quase real (Velocidade), em formatos variados — XML, PDF, planilha, log (Variedade). Um banco comum não aguenta. Aí entra o ecossistema Big Data:

💡 A dupla: HDFS GUARDA, Spark PROCESSA. Como o galpão (HDFS, espalhado e seguro) + o time que trabalha rápido em cima (Spark, na memória).


🧊 OS 5 Vs DO BIG DATA (decore os 3 + 2)

V O que é Na SEFAZ
Volume quantidade gigante milhões de NF-e
Velocidade rapidez de geração/processamento NF-e chegando em tempo quase real
Variedade formatos diversos (estrut/semi/não) XML + PDF + log + planilha
Veracidade confiabilidade/qualidade do dado a nota é fidedigna?
Valor o que se extrai de útil achar a fraude, recuperar crédito

🔑 Bizu: os 3 obrigatórios (se a banca pedir "os 3 Vs") são Volume · Velocidade · Variedade. Os outros 2 (Veracidade · Valor) completam os 5. 🪤 Vs intrusos (distratores que a FCC inventa): versionamento · visibilidade · validade · viabilidadeNÃO existem na lista. Se aparecer, risque.


🎙️ O PLACAR DOS PROFESSORES — Big Data

Prof Apostou? Veredito O que disse (literal)
Thiago Cavalcanti (FGV) 🎯 cravou conceito "HDFS blocos+réplicas / Spark ~100x em memória" → casou com a MT
Léo Matos ⚠️ parcial "as 5 V's: Volume, Velocidade, Variedade, Veracidade, Valor" (5 Vs não caíram isolados, mas conceito firme)
Renato da Costa (prof do CE) ⚠️ parcial "3 V's obrigatórios (Volume/Velocidade/Variedade); decore no mínimo 5"

A leitura do Camilo: honestidade — os 5 Vs NÃO caíram sozinhos nas 3 provas (vieram embutidos no conceito de Data Lake/dado não-estruturado). Mas é munição baratíssima: 10 min de decoreba. O que caiu de fato ⚡ foi a dupla HDFS+Spark (MT). Foca aí.


🎯 QUESTÃO REAL — HDFS + Spark (caiu ✅)

🎯 Questão — teste agora
FCC — SEFAZ-MT · 2026 · tec 3863419
1 toque = candidata · 2 toques = riscar (eliminei)

Considere um ambiente fazendário com petabytes de documentos fiscais em cluster, exigindo armazenamento distribuído tolerante a falhas e também execução de análises iterativas com menor leitura repetida em disco. Nesse cenário, a combinação de sistema/framework que atende corretamente às necessidades é:


🔗 CONEXÃO: o HDFS é a tecnologia que sustenta o Data Lake (Bloco 1) — é onde o dado bruto multiformato mora fisicamente. E o Spark é o motor que faz a transformação sob demanda do ELT (Bloco 2) e que vai treinar os modelos de Machine Learning da Aula 4. Big Data é a infra por baixo de tudo.


🔑 BIZU-SÍNTESE DO BLOCO: "5 Vs = Volume · Velocidade · Variedade (os 3 obrigatórios) + Veracidade + Valor. Intrusos (versionamento/visibilidade) = falsos. A dupla: HDFS GUARDA (distribuído, tolerante a falha) · Spark PROCESSA (em memória, iterativo, rápido). MapReduce = disco (lento); Spark = memória (rápido)."


➡️ Próximo (Bloco 5): o último — e é blindagem-órfão de ouro: a Engenharia de Dados (pipelines). O DAG/Airflow caiu na GO e ninguém da reta-final previu — ponto de graça pra quem souber. Mais o Kafka (streaming) e o ODS (só pra reconhecer).


Bloco 5 — Engenharia de Dados / pipelines: DAG, Kafka, ODS 🟡 (blindagem-órfão)

🎯 O que travar neste bloco:

🟡 PROBABILIDADE PRO CE: MÉDIA (blindagem-órfão). O DAG caiu na GO ⚡ e NINGUÉM da reta-final cravou — ponto-cego de todo mundo = ponto "de graça" pra quem estudou. O edital do CE cita "Engenharia de Dados" isolado e nenhuma fonte tem módulo dedicado. Pílula curta, alto ROI.


🎬 Caso prático — a esteira automática da SEFAZ (o pipeline)

Todo dia de madrugada, a SEFAZ roda uma esteira automática: puxa as NF-e, limpa, cruza com cadastro, atualiza o painel. Mas tem ordem obrigatória — não dá pra cruzar antes de limpar, nem atualizar o painel antes de cruzar. E se um passo falhar (servidor caiu), tem que tentar de novo sem bagunçar o que já rodou.

Quem orquestra essa esteira com regras de dependência e re-tentativa é uma ferramenta de orquestração de pipelines (ex.: Airflow), e o fluxo é desenhado como um DAG:

💡 A sacada: DAG é a planilha de treino do projeto de dados — passos na ordem certa, sem voltar pro começo no meio, com plano B (retry) se algo falhar.


🧊 ENGENHARIA DE DADOS — os 3 conceitos (decore o essencial)

Conceito O que é Gatilho na prova
DAG (Airflow) grafo dirigido + acíclico: dependências explícitas, retries controlados, reexecução idempotente "controle de dependências + rastreabilidade + reprocessamento auditável"
Kafka (streaming) mensageria assíncrona: tópicos particionados, produtores/consumidores, dado em tempo real "fluxo contínuo / tempo real / eventos / particionamento de tópicos"
ODS Operational Data Store: consolida dado operacional antes do DW "consolida operacional entre staging e DW" — só reconhecer

🔑 Bizu do DAG: Acyclic = sem ciclo = não roda em círculo. Repara que é o mesmo "grafo" do banco de grafos que cai em NoSQL — Aula 3 — mas aqui o grafo é de tarefas, não de dados. 🔑 Idempotente = rodar de novo dá o mesmo resultado (não duplica o que já fez). Palavra-chave que a FCC adora.


🎙️ O PLACAR DOS PROFESSORES — Engenharia de Dados / DAG

Leitura do Camilo: este é o buraco da reta-final. Olha o placar:

Prof Apostou? Veredito O que disse
Emannuelle Gouveia 🟡 raspão ⚠️ parcial citou Airflow "de raspão" no ecossistema Big Data — não cravou DAG
Equipe TI (Simulado CE) 🎯 salvou cobriu pipelines com retries + checkpoints (tolerância a falha) e Kafka/streaming (particionamento de tópicos)
(demais profs) ⚪ não cobriu ninguém isolou DAG/orquestração

A leitura do Camilo: o DAG foi órfão na GO ⚡ — caiu e quase ninguém ensinou. É exatamente o tipo de ponto que separa quem passa de quem fica no corte: o concorrente larga em branco, você pega. Aqui é onde eu, o Camilo, agrego o que o curso do CE deixou no escuro. 10 min nesse bloco podem valer 1 questão inteira.


🎯 QUESTÃO REAL — DAG / orquestração de pipeline (caiu ✅ e foi órfão 👻)

🎯 Questão — teste agora
FCC — AFRE GO/SEFAZ-GO · 2026 · tec 3975950
1 toque = candidata · 2 toques = riscar (eliminei)

👻 Considerando uma Secretaria Estadual que integra periodicamente NF-e, CT-e e declarações eletrônicas de múltiplos legados, exigindo reprocessamento auditável, controle explícito de dependências e rastreabilidade temporal das execuções, a característica de uma solução de orquestração de pipelines que atende ao requisito é a


🪤 PEGADINHAS DA ENG. DE DADOS:

  1. DAG × Kafka — DAG = orquestra ordem/dependência de tarefas (lote); Kafka = streaming de eventos em tempo real. Não confunda.

  2. "DAG tem ciclo / pode voltar"falso — é Acyclic, sem ciclo.

  3. ODS = DW → falso — ODS é consolidação operacional intermediária (antes do DW), não o armazém analítico final.


🔗 CONEXÃO: o pipeline (DAG) é a automação do ETL/ELT (Bloco 2) — é a esteira que roda extração→transformação→carga na ordem certa, todo dia. E o grafo do DAG é primo do banco de grafos (Neo4j) que cai em NoSQL na Aula 3 — mesma ideia de nós + ligações, contextos diferentes.


🔑 BIZU-SÍNTESE DO BLOCO: "DAG = grafo dirigido + ACÍCLICO (sem volta), dependências explícitas, retries, idempotente (Airflow) → orquestra a esteira em lote. Kafka = streaming/tempo real (tópicos). ODS = consolida operacional antes do DW (só reconhecer). DAG foi órfão na GO — ponto de graça."


Bloco 6 — 🎓 FECHO + PLANO DE ATAQUE + DRILL

Para tudo e respira, Felício. 🫁 Esta foi pancada de foco — e era pra ser, porque aqui mora o maior ROI da matéria. Você saiu da Aula 0 sabendo classificar o dado, da Aula 1 sabendo o método (CRISP-DM), e agora sabe ONDE o dado mora e COMO ele entra lá. Esse é o terreno onde o Renato apostou dinheiro e onde a FCC caiu nas 3 provas. Guarda no bolso e leva o plano de ataque.


📦 O QUE LEVAR NO BOLSO (a aula numa olhada)

O QUADRO DOS 4 — a tabela-mãe da Aula 2 (cola no espelho):

Caixa Núcleo (1 frase) 🔑 Gatilho na prova Caso fiscal
🌊 Data Lake guarda bruto, multiformato, os 3 tipos schema-on-READ / "formato original" NF-e+EFD+PDF brutos pra auditar
📦 DW arrumado, não-volátil, só estruturado schema-on-write / "sem bloqueio de concorrência" painel de arrecadação de ICMS
🗄️ Data Mart recorte de 1 setor "departamental / área específica" só a área de arrecadação
🏠 Lakehouse Lake + DW juntos ACID / Delta Lake / Iceberg solução corporativa única (medalhão)

E os 4 processos/conceitos que correm em cima do quadro:

🥇 O degrau que mais CRAVA — Lakehouse + medalhão (a aposta nº1 do Renato): Lake + DW = Lakehouse (ACID via Delta/Iceberg), em 3 camadas: 🥉 Bronze (bruto) → 🥈 Prata (limpo/dedup) → 🥇 Ouro (pronto pra BI). 🪤 "Bronze já deduplicado" = ERRADO (dedup é prata).


🎯 PLANO DE ATAQUE 80/20 (a ORDEM, não a lista)

Você não precisa gabaritar — precisa passar do corte que te eliminou. A ordem é por ROI:

1️⃣ DECORA o QUADRO DOS 4 + os gatilhos 🔴 — é o ouro máximo da matéria.

2️⃣ TREINA ETL × ELT 🔴 — mina de pontos fáceis (Renato, ~30 questões).

3️⃣ FECHA OLAP + Big Data 🟡 — blindagem de retorno médio.

4️⃣ PEGA o ÓRFÃO: DAG/Kafka 👻 — o ponto de graça.

🧭 Bordão do plano: arquitetura é o melhor custo×ponto da matéria — decora o quadro dos 4, treina ETL/ELT, e pega o DAG órfão de graça.


🎙️ O PLACAR FINAL — e o lembrete

Honestidade temporal: o CE ainda NÃO aconteceu (prova 01-02/08/2026) — tudo aqui é aposta 🔮, calibrada pelo que JÁ CAIU ✅ em MT/GO/SP 2026.

Tema Quem cravou Veredito real Pro CE
Lakehouse/medalhão Renato ("ALTÍSSIMA") · Mathias ✅ JÁ CAIU (SP) 🔴 ALTA-MÁX
Data Lake (schema-on-read) Renato · Léo · Emannuelle ✅ JÁ CAIU (MT+GO) 🔴 ALTA
ETL × ELT Renato · Léo · Mathias ✅ JÁ CAIU (MT 2×) 🔴 ALTA
OLAP drill-down Renato · Emannuelle ✅ JÁ CAIU (GO) 🟡 MÉD-ALTA
HDFS/Spark Thiago · Léo ✅ JÁ CAIU (MT) 🟡 MÉDIA
DW sem bloqueio Renato 🔮 aposta (RJ/BA antigas) 🔮 ALTA
DAG/orquestração (órfão) ✅ JÁ CAIU (GO, órfão) 👻 MÉDIA (graça)

O professor de TI aqui é o Camilo. Neste bloco o Renato é ouro (é o curso do CE, cravou as apostas certas) — eu confiei nele e completei com o Mathias (Lakehouse) e o Léo (DW não-volátil). Você não decora cursinho: você escolhe a arquitetura pelo gatilho e deduz.

🔑 Bordão-mestre da Aula 2: o dado nasce bruto no Lake, vira arrumado no DW, e o Lakehouse junta os dois. Quem sabe o gatilho não erra arquitetura.


🧭 PRÓXIMA PARADA — Aula 3: Banco de Dados & SQL.

Você já sabe onde o dado mora. Na Aula 3 a gente desce pra dentro do banco: modelo relacional, normalização (1FN/2FN/3FN), NoSQL por caso de uso (grafo pra fraude, chave-valor pra cache) e — o ouro órfão — SQL ESCRITO na mão (GROUP BY/HAVING, CTE, funções de janela). É onde a FCC cobrou 8 questões só em MT. Vai ser drill puro, na mão, com cenário de SEFAZ. Te espero lá. 🪜


🎯 HORA DE RESOLVER — Drill da Aula 2

🔵 Bate o olho e resolve as que você já sabe · 🔴 Corrige com calma as que travar. Todas FCC, conferidas no banco. As primeiras são o ouro (Lake/Lakehouse/ETL — o que crava); depois vêm OLAP, Big Data e o DAG órfão. Treina o gatilho, não a decoreba solta.

🎯 Questões pra resolver

👆 Marque a sua (1 toque) · risque as eliminadas (2 toques) · Conferir mostra o gabarito. A resolução comentada abre no TEC.
Questão 1 (FCC · SEFAZ-MT · 2026 · tec 3863416)
Uma SEFAZ precisa armazenar grandes volumes de NF-e/CT-e e declarações em múltiplos formatos, preservando dados originais para auditoria e permitindo leitura com esquemas definidos na consulta. A arquitetura que atende adequadamente a essa necessidade é:
Questão 2 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975954)
Observando um órgão estadual que integra NF-e, EFD/SPED, logs de sistemas, dados semiestruturados de convênios e arquivos em múltiplos formatos, preservando os dados no formato original para usos analíticos futuros, a característica arquitetural que define um data lake no cenário descrito é
Questão 3 (FCC · SEFAZ-SP · 2026 · tec 3847054)
A Secretaria da Fazenda de determinado Estado implementou uma solução corporativa para centralizar dados fiscais provenientes de múltiplas fontes heterogêneas: declarações de contribuintes, notas fiscais eletrônicas, dados cadastrais e informações de fiscalização. A equipe técnica precisava garantir escalabilidade, processamento de grandes volumes e capacidade analítica para identificar irregularidades tributárias. Após análise, optou-se por uma arquitetura que permite armazenar dados brutos em formato nativo, aplicar transformações sob demanda mediante ferramentas de processamento distribuído e disponibilizar estruturas otimizadas para consultas analíticas pelos auditores fiscais, mantendo a governança através de controles transacionais sobre os metadados. A arquitetura implementada
Questão 4 (FCC · SEFAZ-MT · 2026 · tec 3863430)
Considerando um pipeline diário que consolida arquivos CSV/JSON de sistemas legados para relatórios de arrecadação e que utiliza Pandas para padronizar datas, normalizar códigos e agregar valores, a etapa que caracteriza corretamente a transformação no processo ETL é
Questão 5 (FCC · SEFAZ-MT · 2026 · tec 3863432)
Uma SEFAZ carrega dados fiscais brutos em um data lake para retenção e só realiza transformações sob demanda no ambiente analítico. Nesse caso, o padrão de engenharia de dados adequado é
Questão 6 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975952)
Tendo em vista uma Secretaria Estadual que analisa o ICMS por contribuinte, período fiscal e região, e que precisa permitir aos auditores comparar no menor tempo
possível valores consolidados e detalhados entre níveis temporais (ano → mês → dia), a operação de OLAP que atende ao requisito apresentado é a
Questão 7 (FCC · SEFAZ-MT · 2026 · tec 3863419)
Considere um ambiente fazendário com petabytes de documentos fiscais em cluster, exigindo armazenamento distribuído tolerante a falhas e também execução de análises iterativas com menor leitura repetida em disco. Nesse cenário, a combinação de sistema/framework que atende corretamente às necessidades é:
Questão 8 (FCC · AFRE GO/SEFAZ GO · 2026 · tec 3975950)
Considerando uma Secretaria Estadual que integra periodicamente NF-e, CT-e e declarações eletrônicas de múltiplos legados, exigindo reprocessamento auditável,
controle explícito de dependências e rastreabilidade temporal das execuções, a característica de uma solução de orquestração de pipelines que atende ao requisito
apresentado é a

Última atualização: 22/06/2026 12:08 — Camilo

Camilo · Projeto Auditor · modo interativo