Data Scientist junior orienté data science appliquée, machine learning, qualité de données et outils exploitables pour analystes.
Je m'intéresse aux données volumineuses, à l'évaluation rigoureuse des modèles et à la mise à disposition des résultats via API, dashboards ou rapports.
freight-network est le projet le plus directement lié à l'analyse de graphes : NetworkX, graphe orienté pondéré, centralités, PageRank, communautés et résilience d'un réseau synthétique de fret aérien.
spark-vision complète ce signal avec une brique passage à l'échelle : PySpark, extraction distribuée de features, AWS EMR, S3 et sortie Parquet.
Le parcours ci-dessous complète cette lecture avec qualité de données, SQL/clustering, séries temporelles, NLP et outils de restitution.
| Projet | À Regarder Pour |
|---|---|
| freight-network | NetworkX, graphe orienté pondéré, centralités, PageRank, communautés, analyse de résilience |
| quality-analysis | Nettoyage, qualité de données, scoring explicable, reporting automatisé, tests |
| sql-segmenter | SQL, feature engineering, clustering, segmentation client, stabilité temporelle |
| spark-vision | PySpark, extraction distribuée de features, AWS EMR, S3, logique de passage à l'échelle |
| neural-exchange | PyTorch, séries temporelles, baselines causales, évaluation critique, documentation des limites |
| nlp-sentinel | NLP, FastAPI, Streamlit, monitoring, feedback utilisateur, boucle MLOps légère |
| insight-engine | Transformation d'une analyse en outil lisible, dashboard, JSON exploitable, support décisionnel |
Je suis orienté data appliquée et outils analystes : partir d'un problème concret, structurer les données, modéliser une approche, évaluer les résultats, puis les rendre exploitables via une API, un rapport ou une interface.
Chaque projet met en avant un problème, une approche, des commandes de lancement et des limites.
Data Quality -> nettoyer, contrôler, documenter
Machine Learning -> modéliser, comparer, évaluer
Deep Learning -> NLP, Computer Vision, séries temporelles
MLOps léger -> API, monitoring, feedback, reporting
Analyst Tooling -> Streamlit, React, dashboards, rapports exploitables
quality-analysis est le dépôt le plus représentatif de ma méthode : partir d'un dataset réel, nettoyer les données, documenter les hypothèses, produire des contrôles qualité et générer un rapport reproductible.
Le projet reste volontairement sobre : pas de modèle artificiel, mais un moteur d'audit qualité avec Pandas, rapports JSON/Markdown/HTML, tests légers et restitution Streamlit.
Neural-Exchange est mon laboratoire de séries temporelles avec LSTM PyTorch, données de marché, variables macroéconomiques et comparaison à des baselines causales.
Il ne cherche pas à vendre un modèle miracle. Son intérêt est méthodologique : données propres, entraînement reproductible, modèle/scaler/metadata, visualisations, résidus et limites documentées.
scikit-learn · PyTorch · TensorFlow · NLP · Computer Vision · Time Series · Clustering · Graph Analytics
Je privilégie les modèles expliqués, comparés et évalués avec des baselines.
Python · SQL · Pandas · PySpark · SQLite · pipelines reproductibles · data validation · reporting
Je travaille d'abord sur l'amont : qualité des données, cohérence des features, documentation des transformations et séparation entre exploration et code stable.
FastAPI · Azure Functions · Streamlit · feedback loop · monitoring local · GitHub Actions
Plusieurs dépôts couvrent une chaîne complète : modèle, API, interface, monitoring ou rapport exploitable.
En largeur technique, nlp-sentinel, urban-segmenter et reco-engine montrent des prototypes complets autour du NLP, de la Computer Vision, de la recommandation, des APIs et d'interfaces Streamlit.
React · Vite · Redux Toolkit · Streamlit · GitHub Pages · Matplotlib · Plotly
Je prototype aussi les interfaces nécessaires à la restitution : dashboards, pages de synthèse, outils locaux d'audit et démonstrateurs pour analystes.
En soutien, bank-metrics montre une interface orientée données avec React/Redux et analytics financiers mockés, tandis que rental-catalog conserve une base React/Vite plus classique autour du routage, des composants et de GitHub Pages.
Les notebooks servent de trace exploratoire. Sur les projets principaux, la logique stabilisée est extraite en modules Python, scripts reproductibles, tests et documentation.
| Domaine | Outils |
|---|---|
| Languages | Python · SQL · JavaScript · JSX |
| Data | pandas · NumPy · SQLAlchemy · PySpark |
| ML / DL | scikit-learn · PyTorch · TensorFlow |
| Graphes | NetworkX · graphes orientés · centralités · PageRank |
| NLP | TF-IDF · classification · monitoring · feedback loop |
| Computer Vision | U-Net · segmentation · image processing |
| APIs | FastAPI · REST · Pydantic · Azure Functions |
| Apps | Streamlit · React · Vite · Redux Toolkit |
| Cloud / Tools | Azure · AWS EMR · S3 · GitHub Actions |
| Dataviz | Matplotlib · Plotly · dashboard UI |
- LinkedIn : Victor Aubry
- GitHub : VicoD3X
Applied ML · Data Quality · Forecasting Labs · Graph Analytics · NLP · Analyst Tools