Regex pour la Search Console

Google a rendu possible l’utilisation des Regex dans la Google Search Console cette année 🎉Et comme une bonne nouvelle n’arrive jamais seule parait-il, au moment d’écrire cet article, une autre mise à jour est arrivée. Vous pouvez maintenant aussi exclure des regex, ce qui n’était pas le cas avant le 2 juin.

Qu’est-ce qu’une Regex ?

Les regex (Regular Expression en anglais) permettent de cibler certains éléments précis dans un ensemble plus large d’éléments. Pour vous donner un exemple plus parlant, c’est comme si vous aviez un puzzle de 5000 pièces devant vous et que vous puissiez mettre de côté toutes les pièces du contour du puzzle en un coup de baguette magique. Et bien là, la baguette magique c’est votre ordinateur et la formule magique c’est la regex.

C’est un concept très utilisé en développement informatique, mais qui s’applique aussi énormément à tout ce qui concerne les données. Pour les utiliser, il faut toutefois connaître leur fonctionnement.

Les caractères spéciaux et Regex à connaître

Il y a de nombreux caractères qui ont une fonctionnalité particulière dans les regex, mais je vais me concentrer ici sur ceux qui sont les plus utiles dans le cadre des filtres de la Google Search Console.

^ = début de la chaîne de caractère.

$ = fin de la chaîne de caractère.

. = joker ! Le « . » est un joker ou wildcard en anglais. Il permet de remplacer n’importe quel caractère.

[0-9] = au moins un caractère numérique.

[a-z] = au moins un caractère de l’alphabet (sans accent)

[^\s] = n’importe quel caractère sauf un espace (vous allez l’adorer celui-là, allez voir les exemples plus bas pour comprendre)

\d = un chiffre entre 0 et 9.

| = ou. Le symbole « | » aussi appelé barre verticale ou « pipe » en anglais est l’équivalent de l’opérateur OR.

Quelle est l’utilité des regex en SEO ?

Les regex peuvent être utilisées dans Google Analytics ou Google Data Studio depuis un bon bout de temps maintenant, mais depuis le mois d’avril 2021, Google nous permet d’utiliser des regex directement dans la Search Console et ça peut s’avérer très pratique. D’ailleurs, si vous lisez cet article, c’est sûrement parce que vous cherchez des exemples concrets de regex à utiliser pour récupérer des informations particulières, alors voici des exemples plus concrets.

Comment utiliser les regex dans la Search Console ?

Pour utiliser les regex dans la Search, il faut cliquer sur « nouveau » dans les filtres qui apparaissent en haut de la vue « Performance » de votre Search Console. Lorsque vous avez cliqué sur « nouveau », vous avez le choix du type de filtre. Les regex sont accessibles pour les filtres de type « requête » et « page », choisissez celui que vous souhaitez.

Filtres dans la Google Search Console

Lorsque vous avez choisi le type de filtre, vous cliquez sur le premier champ pour sélectionner « personnalisé (expression régulière) ». Ensuite vous pouvez choisir « correspond à l’expression régulière » ou « ne correspond pas à l’expression régulière » comme sur la vidéo ci-dessous :

Exclure des regex dans la Search Console

Comme vous l’avez vu sur la vidéo ci-dessus, il est possible d’exclure des regex dans la Search Console en sélectionnant « ne correspond pas à l’expression régulière ».

Ça peut être particulièrement utile s’il y a des requêtes ou des URLs que vous souhaitez exclure de vos données afin de pouvoir plus facilement analyser celles qu’il reste.

Vous pouvez par exemple exclure toutes les requêtes marque afin de vous concentrer sur les autres requêtes. Pour mon site j’utiliserai la regex suivante par exemple :

hel+o.papaye
Code language: CSS (css)

Avec cette regex, je filtre ainsi tous les résultats contenant le nom Hello-Papaye, même mal écrit. Le symbole + après le l indique qu’il peut y avoir un « l », deux « l » ou plus encore. Le symbole . entre « hel+o » et « papaye » peut remplacer aussi bien un espace qu’un tiret ou autre chose.

Exemples de regex utiles pour la Google Search Console :

Les regex peuvent être extrêmement complexes et précises. Bien que certaines regex simples soient suffisantes, il faut parfois aller chercher un peu plus loin pour obtenir un résultat satisfaisant. Voici des exemples pratiques de regex à utiliser dans la Google Search Console, parfois un peu complexes pour débuter, mais qui sont incroyablement utiles. En plus je vous explique chaque regex pour que vous puissiez les comprendre et les adapter à vos besoins !

Extraire toutes les questions que se posent vos prospects :

Celle-ci, c’est l’une de mes préférées. Vous pouvez trouver de très belles idées de contenus à créer avec cette regex. Elle permet de récupérer toutes les requêtes de forme interrogative !

Alors voilà ce que peut donner une regex pour trouver toutes les questions que se posent vos visiteurs ou potentiels visiteurs :

\b(qui|quoi|que|quel|quels|quelle|quelles|qu.est.ce|ou|où|quand|comment|combien|pourquoi)+\s

Bonus, pour ne pas vous embêter à taper ou copier/coller cette regex à chaque fois, voici le bookmarklet (raccourci) qui vous permet d’avoir toutes les questions de votre audience :

  1. Glissez-déposez simplement le lien (dans le bloc orange) ci-dessous dans les marque-pages de votre navigateur
  2. Rendez-vous dans l’interface « performance » de votre Search Console
  3. Cliquez sur votre nouveau marque-page et admirez le résultat :

Voilà pour ma regex. Elle n’est probablement pas parfaite non plus. Si vous avez une amélioration à suggérer, n’hésitez pas à m’en faire part en commentaire de cet article 😉

Merci à Clément, car c’est sa regex (ci-dessous) qui m’a inspiré et je l’ai un peu pimpée pour qu’elle récupère davantage de requêtes.

^(qui|quel|qu’est|quoi|ou|où|pourquoi|quand|comment|combien)+\s

Pour l’explication, cette regex indique avec l’accent circonflexe, qu’on veut récupérer toutes les requêtes commençant par au moins l’un des mots entre parenthèses. Le +\s à la fin indique qu’on veut que l’un des mots entre parenthèses soit suivi d’un espace.

Cette regex est déjà très bien, mais j’ai voulu la pousser un peu plus loin pour ne rien rater. Effectivement :

  • Toutes les questions ne commencent pas forcément par l’un de ces mots
  • Il manque des pronoms comme « quelle » ou « quelles » par exemple

J’ai donc utilisé, au lieu de l’accent circonflexe ^ au début, \b qui symbolise la limite d’un mot, donc qu’il y ait un espace ou rien. Contrairement à l’accent circonflexe, ça nous permet d’obtenir des requêtes où le « mot » interrogatif n’est pas au début comme « indemnités kilométriques ou frais réels » ou encore « gestion notes de frais quel logiciel ». Et croyez-moi, il y a du volume réel aussi sur ces requêtes 🙂

Au lieu de « qu’est », j’ai préféré « qu.est.ce », où j’ai mis des wildcards (les points), car ils permettent de trouver aussi bien les requêtes contenant « qu’est-ce », « qu’est ce », « qu est-ce » ou encore « qu est ce », car il ne faut pas sous-estimer ces requêtes.

Extraire les requêtes contenant un seul mot :

Si vous voulez rapidement voir les grosses requêtes d’un seul mot et identifier en un coup d’œil les principaux sujets qui attirent du monde, c’est la regex qu’il vous faut.

^[^\s]+$

Ici, l’accent circonflexe indique que la requête doit commencer par ce qui va suivre ; [^\s] indique n’importe quel caractère sauf un espace. Le symbole + indique qu’il peut y avoir autant de caractères ([^\s]) que possible. Enfin le symbole $ indique que la requête doit s’arrêter là.

J’ai vu passer la variante suivante :

^\w+$

Cette regex ne fonctionne que pour les lettres de l’alphabet latin (de a à z). Elle ne tient donc pas compte des accents, des chiffres ni des apostrophes par exemple. Elle est donc trop restrictive.

Une autre variante que j’ai vu passée :

^[a-zA-Z0-9À-ÿ]+$

C’est un peu mieux, ici on tient compte des chiffres et de certains accents, mais toujours pas des apostrophes ni des autres alphabets. Elle ne fonctionnera pas si votre site a une version russe, arabe ou chinoise par exemple.

Encore une dernière variante que je n’ai pas vue, mais qui aurait pu presque faire l’affaire, car moins restrictive :

^\p{L}+$

La regex \p{L} indique tout caractère Unicode du domaine des lettres. Ça fonctionnera donc pour de l’arabe, du chinois, du russe, du Coréen, etc. mais ça n’inclut pas les apostrophes par exemple.

Extraire les requêtes de 2 mots ou plus:

Ici ce sera assez simple, on reprend la regex que vous ai donnée juste avant pour des requêtes d’un mot, sauf qu’avant le symbole $ on ajoute un « groupe de capture » (symbolisé par des parenthèses) qui sera répété le nombre de fois voulu. La répétition sera symbolisée par des accolades.

Dans ce groupe de capture, on va dire qu’on veut un espace, suivi d’au moins un caractère qui n’est pas un espace : (\s[^\s]+). Ensuite, on va préciser combien de fois on veut cette répétition : {2} si l’on veut 2 répétitions par exemple. Ça nous donne donc des requêtes de 3 mots, car on a la première portion qui récupère le premier mot + le groupe de capture d’un mot qui est répété 2 fois et récupère donc les 2 mots suivants.

Cette regex permet de récupérer les requêtes de 2 mots (elle pourrait être simplifiée, mais c’est pour que vous compreniez bien la différence avec l’exemple suivant) :

^[^\s]+(\s[^\s]+){1}$

Celle-ci permet de récupérer les requêtes de 3 mots :

^[^\s]+(\s[^\s]+){2}$

Etc. On change seulement le nombre de répétitions (le chiffre entre les accolades).

Extraire les requêtes de longue traîne dans la Search Console :

En cherchant des requêtes de 4-5 mots ou plus, vous allez très rapidement identifier les requêtes de longue traîne les plus intéressantes 😉

Alors utilisez simplement l’exemple précédent en remplaçant le nombre de répétitions par au moins 3 pour avoir les requêtes de 4 mots :

^[^\s]+(\s[^\s]+){3}$

Pour extraire toutes les requêtes contenant de 5 à 10 mots (ça ratisse large), vous pouvez même utiliser cette variante (vous pouvez mettre les chiffres que vous voulez pour que ça corresponde à vos besoins :

^[^\s]+(\s[^\s]+){4,9}$

Bonus : Encore une fois, voici un bookmarklet que vous n’avez qu’à glisser dans vos marque-pages pour ensuite récupérer les requêtes de longue traîne en un seul clic dans la GSC (modifiez les valeurs par celles que vous préférez) :

Exemples de Regex simples pour la Google Search Console

Si vous avez une liste de requêtes dans la Search Console et que vous souhaitez récupérer uniquement celles qui contiennent un mot particulier, c’est simple, vous tapez ce mot dans le filtre « requête ». Cependant, si vous souhaitez chercher 2 mots différents, mais ayant une signification proche, jusqu’à présent, il fallait faire filtrer les résultats en 2 fois (3 fois pour 3 mots, etc).

Maintenant, avec les regex, vous pouvez le faire bien plus simplement.

Je vais vous donner ici des exemples assez basiques, mais tout à fait adaptables à d’autres cas. Le but étant de vous donner les bases pour que vous puissiez faire vos propres regex.

Regex OR / OU, récupérer les requêtes similaires :

Mettons que vous cherchiez toutes les requêtes contenant le mot « logiciel », il serait intéressant de récupérer aussi les requêtes contenant des synonymes comme « programme » ou encore « outil ». L’expression régulière suivante vous permet de le faire en une seule fois :

programme|outil|logiciel|solution

Avec cette regex, vous aurez tous les résultats contenant au moins l’un de ces quatre mots.

Récupérer les requêtes commençant par quelque chose :

Le sens des mots à son importance aussi dans les requêtes. Ainsi les requêtes « enceinte téléphone » et « téléphone enceinte » n’auront pas du tout le même objectif et les utilisateurs n’attendent pas les mêmes résultats. D’ailleurs Google arrive assez bien à le comprendre, faites le test, vous verrez.

La regex ^comment retournera des résultats comme « comment dématérialiser ses notes de frais ? », mais ne retournera pas les résultats comme « dématérialiser ses notes de frais comme faire ? » car l’accent circonflexe indique le début de la chaîne de caractères.

Récupérer des requêtes avec ou sans accent :

Mettons que vous souhaitiez récupérer toutes les requêtes contenant le mot « vidéo ». Il faut savoir que la plupart des utilisateurs taperont « vidéo », mais certains taperont « video » sans l’accent. Pour récupérer ces requêtes, il faudra utiliser la regex suivante :

vid.o
Code language: CSS (css)

Le point est le joker (wildcard) qui remplace n’importe quel caractère.

Récupérer des requêtes contenant des nombres :

Il se peut que les utilisateurs arrivent sur votre site en tapant des références de produits ou parce qu’ils cherchent des infos récentes. Dans ces cas, il y a de fortes chances pour que les requêtes contiennent des chiffres.

[0-9]
Code language: JSON / JSON with Comments (json)

La regex [0-9] retournera toutes les requêtes contenant au moins 1 numéro comme « meilleur logiciel de comptabilité en 2021 »

Récupérer toutes les URLs sur plusieurs années :

Si votre site utilise des dates dans les URLs, vous pouvez facilement récupérer toutes les URLs entre l’année 2010 et l’année 2019 avec la regex suivante (dans le filtre URL bien sûr) : 201\d. En effet, la regex \d symbolise un seul caractère numérique.

Apprendre et tester ses regex

Pour apprendre les regex, vous avez bien sûr cet article 🙂 Il effleure à peine le sujet, mais pour une utiliser occasionnelle dans la Google Search Console il devrait faire l’affaire.

Sinon, vous avez de nombreuses ressources gratuites en ligne pour apprendre. Cette page est plutôt claire et bien faite. Vous pouvez aussi regarder la partie « quick reference » de regex101 qui liste les principaux caractères et regex utiles.

Pour tester, rien de tel que de le faire directement la Search Console. Vous ne risquez pas de supprimer ou modifier les données donc allez-y testez 🙂 Vous pouvez aussi utiliser regex101 encore une fois qui est très bien fait. Vous mettez quelques données dans le champ « test string » et vous rentrez votre regex dans le champ tout en haut. Vous verrez rapidement les données « catchées » par votre regex et à droite vous obtenez des explications en direct de chaque portion de votre regex. Un must !

Des idées de regex ?

J’espère que cet article vous a donné de bonnes pistes pour vous donner envie de creuser davantage le sujet !

Si vous avez des idées de regex intéressantes que je n’aurais pas abordées ici ou des regex plus adaptées, je vous invite à les partager en commentaire. En cadeau, un backlink dans cet article pour mentionner votre idée 🎁

Partagez cet article 👍
Facebook
Twitter
LinkedIn
A propos de l'auteur
Timothée Allemmoz - consultant SEO pour les SaaS

J’apporte mon expertise SEO aux startups qui se démènent pour proposer des outils et des solutions en ligne à leurs clients. Mon esprit d’analyse et mon expérience dans le SEO (certifié IX-SEO, QASEO et CESEO) permettent à mes clients d’atteindre leurs objectifs de croissance. Notre objectif commun : être présent sur Google tout au long du parcours d’achat de leurs prospects.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *