Introductionđź”—
Ceci est la page du cours d'analyse de données (DAD), commun aux M2 TIW et Bio-Informatique, université Lyon 1. Le cours comprend 2 parties organisées séparément, l'une enseignée par Fabien De Marchi, et l'autre organisée par moi-même. Cette page regroupe les informations sur ma partie du cours, qui a lieu le Lundi Après-Midi.
Salles - Calendrierđź”—
Vous pouvez retrouver le détail des horaires et des salles ici : adelb.univ-lyon1.fr
Les cours avec moi ont lieu le Lundi après-midi. Les cours avec Fabien De Marchi ont lieu le Mercredi après-midi. Les deux parties sont gérées indépendemment.
Programmes et contenusđź”—
Ci-dessous, une vue générale des cours du semestre.
Il s'agit d'un programme provisoire qui sera amené à évoluer.
Les contenus seront mis Ă jour au fur et Ă mesure.
Topic | Resources |
---|---|
(01/09) Introduction | Slides - TP |
(22/09) Clustering Beyond K-Means | Slides - TP |
(29/09) Network Data Mining | Slides - TP1 Gephi - TP2 Networkx |
(20/10) Other Data Types Transformations | Slides - TP |
(27/10) DASH - TP/Project | Tutoriel DASH - Exemples DASH - Fichiers exemples+slides |
(17/11) Project | |
(24/11) Project |
Jeux de données🔗
Ci-dessous les differents jeux de données utilisés dans les TPs.
Introductionđź”—
- coffee_effects.csv
- cars_synthetic.csv
- usedCarsVW.csv (Ce jeu de données provient de Kaggle, le dataset complet est disponible ici )
Clusteringđź”—
- fruits_all.zip
- cars_synth_clean.csv
- wine-clustering.csv (Ce jeu de données provient de Kaggle, le dataset originel est disponible ici )
Networksđź”—
Other data types Data transformationđź”—
- ratings_clean_names.csv (Ce jeu de données provient de Kaggle, le dataset originel est disponible ici )
Outilsđź”—
Vous allez travailler majoritairement avec python.
Vous pouvez soit travailler avec google colab (vous pouvez utiliser google drive pour stocker des fichiers facilement accessible), soit bien sûr travailler en local sur votre machine.
Dans ce second cas, il vous faudra installer quelques outils particulièrement utile.
Librairies Pythonđź”—
Ci-dessousListe des librairies python utilisées dans les TPs:
- jupyter (Jupyter notebook)
- pandas (Manipulation de données)
- scikit-learn (Machine Learning/Data Mining)
- seaborn (Visualisation de données)
- networkx (Gestion et analyses de graphes)
- cdlib (Détection de communauté)
Si vous n'ĂŞtes pas familiers avec pandas: un tutoriel rapide ici.
De même une introduction/rappel sur les structures de données en python (listes, dictionnaires, sets...) ici.
Gephiđź”—
Gephi est un outil simple de visualisation et manipulation de graphe. Bien qu’il propose peu de fonctionnalité en terme d’analyse de graphes, il reste intéressant pour visualiser et explorer des graphes de taille petite et moyenne ( < 1000 nœuds).
Il est téléchargeable ici: gephi.org.
Gephi requiert Java et souffre de quelques bug sous windows (mais il n’existe pas vraiment de bonnes alternatives). Voici des solutions aux problèmes les plus communs:
Examensđź”—
La note de l'UE sera composée de deux parties: une note de projet(50%) et un examen final(50%). L'examen final comptera 50% des points sur ma partie (cours du Lundi).
Examen Finalđź”—
Vous pouvez consulter les sujets des précédents examens (pour ma partie): 2022 et 2023. Le contenu était légèrement différent et l'examen pourra être différent également.
Projetđź”—
- Vous pouvez vous mettre par groupe de 2 ou 3
- L’objectif du projet est de prendre un jeu de données réel, de l'analyser en utilisant les techniques et outils vus en cours, et de le restituer sous la forme d'un dashboard fait avec dash. Vous pouvez utiliser des outils que nous n'avons pas vu en cours, mais une partie importante du projet doit concerner l'application du cours. Si besoin, voici quelques conseils pour trouver un dataset.
- Il s'agit d'un "petit" projet: appliquer ce qui a été présenté en TP (au moins la moitié des TPs) sur un jeu de données original et restituer sous forme de dashboard est suffisant, je ne demande pas d'aller plus loin dans l'analyse.
Date de rendu du projet: à déterminer.