Ce cours couvre les fondamentaux des expressions rationnelles, leur syntaxe et leurs applications pratiques pour manipuler et rechercher des motifs dans des fichiers texte sous Linux. Ce PDF de 12 slides offre un tutoriel gratuit et concis, expliquant comment utiliser des commandes comme grep, sed et awk avec des regex, ainsi que des exemples concrets pour faciliter l’apprentissage. Il aborde également les métacaractères, les quantificateurs et les classes de caractères, permettant aux utilisateurs de maîtriser rapidement la puissance des expressions rationnelles dans un environnement Linux. Idéal pour les débutants et ceux souhaitant se perfectionner, ce guide fournit des bases solides pour automatiser des tâches de traitement de texte efficacement.
Ce cours s'adresse aux développeurs, analystes de données et professionnels de l'informatique souhaitant automatiser des tâches de recherche, validation ou modification de texte. Les débutants en programmation y trouveront une introduction structurée, tandis que les experts pourront approfondir des fonctionnalités avancées comme les optimisations de performance. Une connaissance de base d'un langage de programmation (Python, JavaScript, etc.) est recommandée pour les exercices pratiques.
Les expressions rationnelles, ou regex, sont des séquences de caractères décrivant un motif de recherche. Elles permettent de vérifier si une chaîne de texte contient une certaine structure (comme un numéro de téléphone ou une URL) et d'effectuer des remplacements complexes. Par exemple, /\d{2}-\d{2}-\d{4}/
peut correspondre à une date au format JJ-MM-AAAA.
Les quantificateurs définissent combien de fois un élément doit apparaître : *
(0 ou plus), +
(1 ou plus), ?
(0 ou 1), et {n,m}
(entre n et m fois). Par exemple, a{2,4}
reconnaît "aa", "aaa" ou "aaaa".
Les opérateurs incluent :
|
: rouge|vert
correspond à "rouge" ou "vert".^
(début) et $
(fin) : ^Bonjour
cible les lignes commençant par "Bonjour".()
pour capturer ou grouper des motifs : (ab)+
reconnaît "ab", "abab", etc.Deux standards principaux coexistent : POSIX (basique, utilisé dans grep) et PCRE (Perl Compatible, plus riche, présent dans Python/JavaScript). PCRE supporte des fonctionnalités comme les références arrière (\1
) ou les assertions.
Elles simplifient la correspondance de types de caractères :
\d
: chiffre (équivalent à [0-9]
).\W
: tout sauf une lettre/chiffre/underscore.[A-Za-z]
pour toutes les lettres, [^0-9]
pour tout sauf un chiffre.Exemples :
(?=...)
: \d+(?=€)
trouve les nombres suivis de "€".(\w+)\s+\1
détecte les mots répétés ("bonjour bonjour").Validation d'email avec /^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$/
:
^
: début de chaîne.[a-zA-Z0-9._%+-]+
: nom utilisateur .@
: symbole obligatoire.\.[a-zA-Z]{2,}
: extension de domaine (2+ lettres).$
: fin de chaîne.Partner sites PDF Tutorials (English) | PDF Manuales (Spanish) | Cours PDF (French)