Lakehouse educacional sobre dados públicos brasileiros (INEP + Base dos Dados) que mede, decompõe e tenta explicar causalmente o gap de notas do ENEM entre municípios brasileiros.
🇧🇷 PT-BR · 🇺🇸 EN below
Se um aluno nasce em Cuiabá vs. São Paulo, qual a diferença esperada na nota do ENEM? O que explica esse gap — escola pública/privada, renda do município, qualidade medida pelo IDEB, ou efeito causal real?
~80 pontos de gap absoluto na média geral do ENEM entre escolas privadas de Pinheiros (SP) e escolas públicas de municípios do interior do Maranhão.
Decomposição esperada (Oaxaca-Blinder):
- ~40 pontos explicados por composição (escolaridade dos pais, renda, raça)
- ~40 pontos não-explicados ("efeito coeficiente" — geografia, qualidade escolar, capital social)
Esse número será refinado ou refutado na F4-F6. Veja PROJECT.md para detalhes.
| Camada | Tecnologia |
|---|---|
| Ingestão | Python 3.11 (requests + pandas) |
| Storage | Databricks Delta Lake (Free Edition 2026+) |
| Transform | PySpark + SQL (Lakeflow Declarative Pipelines) |
| Analytics | statsmodels, linearmodels, scikit-learn, SHAP |
| BI | Power BI Desktop (DirectQuery, OAuth) |
| CI | GitHub Actions (ruff + sqlfluff + nbconvert smoke + gitleaks + Dependabot) |
data/raw/ ──> Bronze (Delta) ──> Silver (Delta) ──> Gold (Delta) ──> Power BI
ENEM zips 10 tabelas 4 tabelas 5 tabelas
Censo zips (1 por fonte/ano) (ENEM limpo, (3 dims + 1 fato
BD IDEB parquet joins prontos) + 1 view BI)
BD PIB parquet
| Fonte | Onde | Tamanho |
|---|---|---|
| INEP ENEM 2020-2023 | download.inep.gov.br/microdados/ |
~2.2 GB raw |
| INEP Censo Escolar 2020-2023 | download.inep.gov.br/dados_abertos/ |
~106 MB raw |
| Base dos Dados IDEB | br_inep_ideb.escola |
~50 MB |
| Base dos Dados PIB | br_ibge_pib.municipio |
~5 MB |
# 1. Clone
git clone https://github.com/DRoqueProgrammer/edulake-br.git
cd edulake-br
# 2. Setup local Python venv (Windows)
python -m venv .venv
.venv\Scripts\activate
pip install -r requirements.txt
# 3. Download dos dados brutos (~2.5 GB)
python scripts/download_inep.py
python scripts/download_bd.py
# 4. Upload pra Databricks Free Edition (manual via UI)
# ver docs/setup/databricks-secrets.md- Lakehouse publicado no Databricks Free Edition com 5 tabelas Gold
- 8 notebooks (descritivo + Oaxaca + DiD + IV + PSM + ML + SHAP + reporting)
- Power BI Dashboard com 6 visuais (mapa gap, IDEB vs ENEM, ranking, Oaxaca, SHAP, DiD)
- ADRs (Architecture Decision Records) explicando cada escolha técnica
- Docs bilíngues (PT-BR + EN) explicando setup, dicionário de dados, referências
Ver docs/setup/databricks-secrets.md para o passo-a-passo de autenticação OIDC no Databricks Free Edition 2026+.
- Código: MIT
- Documentação/notebooks: CC-BY 4.0
🇺🇸 EN
Goal: Measure, decompose, and causally explain the ENEM (Brazilian college entrance exam) score gap between Brazilian municipalities using open public data.
Stack: Python 3.11 · Databricks Delta Lake (Free Edition 2026+) · Lakeflow SQL · statsmodels/linearmodels · scikit-learn/SHAP · Power BI Desktop · GitHub Actions.
Architecture: Medallion (Bronze → Silver → Gold) on 4 Brazilian public data sources (INEP ENEM + INEP Census + BD IDEB + BD PIB).
See docs/setup/databricks-secrets.md for the OIDC auth setup on Databricks Free Edition 2026+.
| Fase | Conteúdo | Esforço | Status |
|---|---|---|---|
| F0 | Scaffold + docs + CI verde | S | ✅ v0.0.1-f0-scaffold |
| F0.5 | Ajustes pós-Mirante (3 lenses peer-review) | M | 🚧 v0.0.2-f0-fixes-mirante |
| F1a | Bronze upload (protótipo upload >1GB do ENEM 2023) | M | ⏳ |
| F1b | Bronze COPY INTO (4 fontes) | M | ⏳ |
| F2 | Silver: ENEM limpo + joins + anonimização LGPD | L | ⏳ |
| F3 | Gold: dimensões + fato (SCD2) | L | ⏳ |
| F4 | Analytics F1: descritivo + Oaxaca-Blinder | M | ⏳ |
| F5 | Analytics F2: causal (DiD por intensidade + IV) | L | ⏳ |
| F6 | Analytics F3: ML (XGBoost) + SHAP | M | ⏳ |
| F7 | Power BI Dashboard + release | M | ⏳ |
Estimativa realista: 15-20 sessões (não 6-7 semanas). Cada fase concluída = release pública do GitHub.
Wireframe do dashboard Power BI (versão final sai na F7):
6 visuais planejados: mapa do gap geográfico, série temporal IDEB vs ENEM, ranking municípios, decomposição Oaxaca, SHAP summary, coeficientes DiD.
