Skip to content

DRoqueProgrammer/edulake-br

Repository files navigation

edulake-br — Radar de Inequidade Educacional

Lakehouse educacional sobre dados públicos brasileiros (INEP + Base dos Dados) que mede, decompõe e tenta explicar causalmente o gap de notas do ENEM entre municípios brasileiros.

🇧🇷 PT-BR · 🇺🇸 EN below


🎯 Pergunta-causa

Se um aluno nasce em Cuiabá vs. São Paulo, qual a diferença esperada na nota do ENEM? O que explica esse gap — escola pública/privada, renda do município, qualidade medida pelo IDEB, ou efeito causal real?

📊 Achado esperado (hipótese de trabalho)

~80 pontos de gap absoluto na média geral do ENEM entre escolas privadas de Pinheiros (SP) e escolas públicas de municípios do interior do Maranhão.

Decomposição esperada (Oaxaca-Blinder):

  • ~40 pontos explicados por composição (escolaridade dos pais, renda, raça)
  • ~40 pontos não-explicados ("efeito coeficiente" — geografia, qualidade escolar, capital social)

Esse número será refinado ou refutado na F4-F6. Veja PROJECT.md para detalhes.

📊 Stack demonstrada

Camada Tecnologia
Ingestão Python 3.11 (requests + pandas)
Storage Databricks Delta Lake (Free Edition 2026+)
Transform PySpark + SQL (Lakeflow Declarative Pipelines)
Analytics statsmodels, linearmodels, scikit-learn, SHAP
BI Power BI Desktop (DirectQuery, OAuth)
CI GitHub Actions (ruff + sqlfluff + nbconvert smoke + gitleaks + Dependabot)

🗂️ Arquitetura (medallion)

data/raw/             ──>  Bronze (Delta)  ──>  Silver (Delta)  ──>  Gold (Delta)  ──>  Power BI
ENEM zips                    10 tabelas            4 tabelas            5 tabelas
Censo zips                   (1 por fonte/ano)     (ENEM limpo,         (3 dims + 1 fato
BD IDEB parquet                                     joins prontos)       + 1 view BI)
BD PIB parquet

📁 Fontes (validadas)

Fonte Onde Tamanho
INEP ENEM 2020-2023 download.inep.gov.br/microdados/ ~2.2 GB raw
INEP Censo Escolar 2020-2023 download.inep.gov.br/dados_abertos/ ~106 MB raw
Base dos Dados IDEB br_inep_ideb.escola ~50 MB
Base dos Dados PIB br_ibge_pib.municipio ~5 MB

🚀 Quickstart

# 1. Clone
git clone https://github.com/DRoqueProgrammer/edulake-br.git
cd edulake-br

# 2. Setup local Python venv (Windows)
python -m venv .venv
.venv\Scripts\activate
pip install -r requirements.txt

# 3. Download dos dados brutos (~2.5 GB)
python scripts/download_inep.py
python scripts/download_bd.py

# 4. Upload pra Databricks Free Edition (manual via UI)
#    ver docs/setup/databricks-secrets.md

📈 Outputs do projeto

  1. Lakehouse publicado no Databricks Free Edition com 5 tabelas Gold
  2. 8 notebooks (descritivo + Oaxaca + DiD + IV + PSM + ML + SHAP + reporting)
  3. Power BI Dashboard com 6 visuais (mapa gap, IDEB vs ENEM, ranking, Oaxaca, SHAP, DiD)
  4. ADRs (Architecture Decision Records) explicando cada escolha técnica
  5. Docs bilíngues (PT-BR + EN) explicando setup, dicionário de dados, referências

🧪 Como reproduzir

Ver docs/setup/databricks-secrets.md para o passo-a-passo de autenticação OIDC no Databricks Free Edition 2026+.

📜 Licença

  • Código: MIT
  • Documentação/notebooks: CC-BY 4.0

🇺🇸 EN

Goal: Measure, decompose, and causally explain the ENEM (Brazilian college entrance exam) score gap between Brazilian municipalities using open public data.

Stack: Python 3.11 · Databricks Delta Lake (Free Edition 2026+) · Lakeflow SQL · statsmodels/linearmodels · scikit-learn/SHAP · Power BI Desktop · GitHub Actions.

Architecture: Medallion (Bronze → Silver → Gold) on 4 Brazilian public data sources (INEP ENEM + INEP Census + BD IDEB + BD PIB).

See docs/setup/databricks-secrets.md for the OIDC auth setup on Databricks Free Edition 2026+.


🗺️ Roadmap

Fase Conteúdo Esforço Status
F0 Scaffold + docs + CI verde S v0.0.1-f0-scaffold
F0.5 Ajustes pós-Mirante (3 lenses peer-review) M 🚧 v0.0.2-f0-fixes-mirante
F1a Bronze upload (protótipo upload >1GB do ENEM 2023) M
F1b Bronze COPY INTO (4 fontes) M
F2 Silver: ENEM limpo + joins + anonimização LGPD L
F3 Gold: dimensões + fato (SCD2) L
F4 Analytics F1: descritivo + Oaxaca-Blinder M
F5 Analytics F2: causal (DiD por intensidade + IV) L
F6 Analytics F3: ML (XGBoost) + SHAP M
F7 Power BI Dashboard + release M

Estimativa realista: 15-20 sessões (não 6-7 semanas). Cada fase concluída = release pública do GitHub.

🎨 Dashboard preview

Wireframe do dashboard Power BI (versão final sai na F7):

Dashboard wireframe

6 visuais planejados: mapa do gap geográfico, série temporal IDEB vs ENEM, ranking municípios, decomposição Oaxaca, SHAP summary, coeficientes DiD.

About

Lakehouse educacional sobre dados públicos brasileiros (INEP + Base dos Dados + IBGE) que mede, decompõe e explica causalmente o gap de notas do ENEM entre municípios brasileiros.

Topics

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages