PARCOURS DE FORMATION

Découvrez, apprenez, perfectionnez-vous sur le machine learning et les outils open-source en data-science:
R, Rmarkdown, Shiny, plotly Python, Numpy, Pandas, Matplotlib,…

Un cursus en trois étapes clés

Data-Science,Environnement de travail

Comprendre les outils, des langages de programmation et organisation de travail pour bien mener vos projets en data science.

Les outils open-sources,les langages R et Python

Maîtriser les tests statistiques principaux jusqu’à la construction de dynamiques élaborés sous R et python.

Le Machine Learning,les algorithmes d’apprentissage

Comprendre les techniques des modèles prédictifs et de modélisation multivariée.

Cinq modules de formation

    Environnement de développement

    Durée: 2 à 4 jours

    Objectifs : Comprendre l’écosystème de la data science et connaître les outils afférents à la réalisation d’un projet en data science, choisir son langage de programmation et organiser son travail.

    À l’issue de cette formation, le participant aura une idée précise de ce que représente la data science, les outils disponibles pour mettre en oeuvre des projets de data science, quel langage de programmation choisir et comment organiser son travail.

    Outils de base, R

    Durée: 2 jours

    Objectifs : Comprendre comment sont représentées les données, savoir manipuler des structures de données simples, maîtriser les fonctions de base dans les packages {base} et {stats} pour le calcul numérique et les fonctions statistiques de base, apprendre les bases de la visualisation graphique avec le package graphique de base {graphics}.

    À l’issue de cette formation, le participant doit être en mesure d’écrire des scripts d’analyse simple en travaillant soit avec des données artificielles soit avec des sources de données ne nécessitant pas de pré-traitement majeur. Il saura mettre en oeuvre les principaux tests statistiques pour la comparaison de deux échantillons et réaliser des graphiques exploratoires de base.

    Outils de base, Python

    Durée: 2 jours

    Objectifs: comprendre comment sont représentées les données, savoir manipuler des structures de données simples, maîtriser les base des librairies numpy et scipy pour le calcul numérique et les fonctions statistiques de base, apprendre les bases de la visualisation graphique avec matplotlib.

    À l’issue de cette formation, le participant doit être en mesure d’écrire des scripts d’analyse simple en travaillant soit avec des données artificielles soit avec des sources de données ne nécessitant pas de pré-traitement majeur. Il saura mettre en oeuvre les principaux tests statistiques pour la comparaison de deux échantillons et réaliser des graphiques exploratoires de base.

    Outils avancés, R

    Durée: 2 à 3 jours

    Objectifs: approfondir les outils permettant de représenter et manipuler des données complexes, découvrir les packages dplyr et data.table pour optimiser les traitements de données, importer des sources de données (CSV, JSON, XML, SQL), réaliser un modèle de régression linéaire simple ou multiple avec le package {stats}, perfectionner ses connaissances des graphiques et savoir utiliser ggplot2 ou plotly.

    À l’issue de cette formation, le participant doit être en mesure d’importer voire de fusionner des sources structurées ou non structurées de données, d’appliquer des traitements avancés sur les données quantitatives et qualitatives et de construire des graphiques statiques ou dynamiques élaborés.

    Outils avancés, Python

    Durée: 2 à 3 jours

    Objectifs: approfondir les outils permettant de représenter et manipuler des données complexes, utiliser efficacement la librairie pandas, importer des sources de données (CSV, JSON, XML, SQL), réaliser un modèle de régression linéaire simple ou multiple avec la librairie statmodels, perfectionner ses connaissances de matplotlib et savoir utiliser seaborn ou plotly.

    À l’issue de cette formation, le participant doit être en mesure d’importer voire de fusionner des sources structurées ou non structurées de données, d’appliquer des traitements avancés sur les données quantitatives et qualitatives et de construire des graphiques statiques ou dynamiques élaborés.

    Bases du Machine Learning

    Durée: 2 jours

    Objectifs: comprendre comment sont représentées les données, savoir manipuler des structures de données simples, maîtriser les base des librairies numpy et scipy pour le calcul numérique et les fonctions statistiques de base, apprendre les bases de la visualisation graphique avec matplotlib.

    À l’issue de cette formation, le participant sera en mesure de déterminer le type de techniques à appliquer en fonction des questions posées et de réaliser des pré-traitements élaborés afin de mettre en oeuvre des modèles prédictifs.

    Machine Learning Avancé

    Durée: 3 jours

    Objectif : maîtriser des modèles plus complexes, en particulier les méthodes d’ensemble reposant sur les techniques de bagging et de boosting, utiliser et optimiser des modèles de pénalisation (lasso et elasticnet), comprendre la technique de rééchantillonnage par bootstrap pour l’estimation et la validation croisée, savoir mettre en oeuvre les techniques de filtrage collaboratif.

    À l’issue de cette formation, le participant aura une vision globale des différentes techniques de modélisation multivariée.

    Rejoignez la communauté Ritme Data solutions !