Default title header
Renforcement IA & Data Science Probayes

Natural Language Processing et IA Générative

Cette formation, vous permettra de maîtriser les techniques modernes de NLP pour extraire des informations précieuses, d’automatiser des tâches complexes et de développer des applications intelligentes à partir des textes.

Objectifs de la formation :

  • Maîtriser les outils basiques de manipulation de données textuelles en Python (dont gestion de l’encodage et regex)
  • Savoir utiliser les principales méthodes de prétraitement du texte (dont tokenisation, lemmatisation, racinisation)
  • Maîtriser les principales méthodes d’analyse de données textuelles
  • Savoir utiliser les méthodes de représentations vectorielles de type Bag-of-Word (TF-IDF)
  • Comprendre le principe des représentations vectorielles “context-free” (word embedding avec word2vec)
  • Comprendre le mécanisme d’attention
  • Comprendre les caractéristiques principales de l’architecture Transformer et de ses variantes (GPT, BERT) et appliquer ces architectures
  • IA Générative, comprendre ce qu’est un LLM
  • Application sur un jeu de données : développement d’un système RAG (“Retrieval-Augmented Generation”)

Publics :

Toute personne ayant un profil technique et souhaitant s’initier à la manipulation et à l’exploration de données textuelles en Python

Atouts - bénéfices de la formation :

  • Un fil rouge logique permettant de comprendre les grandes intuitions à l'oeuvre dans les évolutions du NLP
  • Une présentation rigoureuse et précise des méthodes clef du NLP, qui permet de pouvoir rapidement s'approprier de nouveaux modèles après la formation
  • Des mises en applications tout au long du cours
  • Un exercice final qui fait appel aux différents concepts vus tout au long du cours
  • Un support de cours exploitable et personnalisé

Programme détaillé :

Généralités :

  • Extraction de texte (dont OCR)
  • Encodage de caractères (Unicode, UTF-8, normalisation)
  • Méthodes de la classe string
  • Regex


Prétraitement de texte :

  • Tokenisation (dont WordPiece)
  • Lemmatisation et racinisation (stemming)

Représentation vectorielle pré-Deep Learning :

  • Bag-of-Word
  • TF-IDF
  • Métriques de similarités


Représentations vectorielles neuronales context-free :

  • Rappels sur les réseaux de neurones
  • Word2vec
  • Application à la classification

Introduction de contexte dans les représentations vectorielles neuronales :

  • RNN
  • Mécanisme d’attention

Architecture Transformer :

  • Description
  • Les Transformers avec HuggingFace


GPT et BERT :

  • Spécificités de GPT et BERT
  • Méthodes d’apprentissage (transfert learning)
  • Modèle encoder-only vs. decoder-only


Application : développement d’un système RAG ("Retrieval-Augmented Generation") :

  • Retriever avec BM25 puis BERT
  • Génération de réponse avec un LLM

Moyens pédagogiques :

  • Alternance entre exposés théoriques et mises en pratique
  • Études de plusieurs cas pratiques « Fil rouge »
  • Utilisation des cahiers (notebooks) Jupyter pour rassembler explications et exercices pratiques dans un même document

Modalité - Présentiel :

  • Exposé : 70%
  • Exercices : 30%

Validation des acquis :

  • Exercices d’auto-évaluation.

Dispositif de suivi et d'évaluation de la formation :

  • Feuille de présence
  • Mise en situation
  • Formulaire d’évaluation de la formation

Intervenants :

Gaétan est ingénieur spécialisé en vision par ordinateur et Deep Learning. Depuis 2020, en tant que Data Scientist chez Probayes, il réalise des projets R&D innovants autour de sujets comme la voiture autonome ou la maintenance prédictive. Il utilise quotidiennement Python pour l’analyse de données, l’apprentissage automatique ainsi que la mise en production des solutions développées.

Marie-Caroline Schaeffer est docteur en Apprentissage Automatique appliqué à la santé. Elle travaille depuis 2017 chez Probayes en tant que Data Scientist et chef de projets sur des sujets d’apprentissage automatique et de Traitement Automatique des Langues (NLP). Elle a notamment contribué à des projets de fouille documentaire, de chatbots, de classification de textes, de RAG (Retrieval-Augmented-Generation) et de traduction automatique.

Témoignages :

Une formation complète sur le NLP, avec un contenu et des cas pratiques très à jour par rapport à l'état de l'art. - Milloud

N° SIRET : 45053883000073 - Code NAF : 6202A - TVA : FR72 450 538 830
Déclaration d’activité enregistrée sous le numéro 84 38 06761 38 auprès du préfet de la région Auvergne-Rhône-Alpes.
Cet enregistrement ne vaut pas agrément.

Réservez votre place dès à présent

Formation ouverte en inter et intra

Présentiel / distanciel :
3 jours 21 heures
De 6 à 15 pers.
Tarifs
Inter : 2 990€HT / stagiaire
Intra : Sur devis

Accessible à toutes les personnes porteuses d’un handicap

À voir également

Acculturation & Accompagnement

Acculturation à l’Intelligence artificielle

Nous vous présentons un tour d’horizon des notions clés liées à l’Intelligence Artificielle, de ses différentes approches et des avancées récentes dans le domaine. Nous abordons les aspects pratiques de l’utilisation de solutions d’IA, depuis la...

Présentiel / distanciel : 1 jour 7 heures
10 pers. maximum
Acculturation & Accompagnement

Initiation à la Recherche Opérationnelle et à l'Optimisation Combinatoire

Découvrez les fondements de cette discipline et comment, elle peut s’appliquer à de multiples cas d’usages quotidiens comme l’optimisation des itinéraires, des transports de colis, la recherche du billet d’avion au meilleur prix, la planification des...

Présentiel / distanciel : 1 jour 7 heures
De 6 à 15 pers.
Initiation IA & Data Science

Python pour la data science : Le langage Python

Cette formation est la première d’une série de formations autour de la Data Science et du langage Python. Elle a pour objectif de présenter les bases du langage Python.

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Initiation IA & Data Science

Python pour la data science : Exploration de données

Cette formation est la deuxième d’une série de formations autour de la Data Science et du langage Python. Alors que la précédente formation présentait les bases du langage Python, cette formation présente les principaux outils utilisés pour la...

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Initiation IA & Data Science

Python pour la data science Initiation au Big Data avec PySpark

Spark est un des principaux frameworks d’analyse de données Big Data. Il est massivement déployé sur les infrastructures de type Data Lake, soit directement, soit au travers d’autres outils tels que Dataiku DSS. PySpark est une bibliothèque...

Présentiel / distanciel : 1 jour 7 heures
De 5 à 15 pers.
Renforcement IA & Data Science

Machine Learning Tronc - Commun 2

Cette formation est la quatrième d’une série de formations autour de la Data Science et du langage Python. La précédente formation présentait l’analyse exploratoire et la préparation des données, ainsi que la modélisation et le déploiement. Cette...

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Renforcement IA & Data Science

Machine Learning Tronc - Commun 1

Cette formation est la troisième d’une série de formations autour de la Data Science et du langage Python. Alors que la précédente formation présentait la manipulation de données en Python, cette formation présente les principaux outils et concepts...

Présentiel / distanciel : 3 jours 21 heures
De 6 à 12 pers.
Renforcement IA & Data Science

Approche technique à la Recherche Opérationnelle et à l'Optimisation Combinatoire

Présentiel / distanciel : 2 jours 14 heures
De 6 à 15 pers.