Généralités :
- Extraction de texte (dont OCR)
- Encodage de caractères (Unicode, UTF-8, normalisation)
- Méthodes de la classe string
- Regex
Prétraitement de texte :
- Tokenisation (dont WordPiece)
- Lemmatisation et racinisation (stemming)
Représentation vectorielle pré-Deep Learning :
- Bag-of-Word
- TF-IDF
- Métriques de similarités
Représentations vectorielles neuronales context-free :
- Rappels sur les réseaux de neurones
- Word2vec
- Application à la classification
Introduction de contexte dans les représentations vectorielles neuronales :
- RNN
- Mécanisme d’attention
Architecture Transformer :
- Description
- Les Transformers avec HuggingFace
GPT et BERT :
- Spécificités de GPT et BERT
- Méthodes d’apprentissage (transfert learning)
- Modèle encoder-only vs. decoder-only
Application : développement d’un système RAG ("Retrieval-Augmented Generation") :
- Retriever avec BM25 puis BERT
- Génération de réponse avec un LLM