Dans une vidéo publiée hier sur la chaine Youtube de Google Webmaster Help, Matt Cutts, responsable de l’équipe WebSpam chez Google, nous explique comment sont générés les sitelinks… ou pas :
Matt Cutts explique dans la vidéo que les sitelinks sont générés par un algorithme, sans intervention humaine de la part de Google et qu’ils n’apparaissent pas pour tous les sites.
Si votre site n’a pas de sitelinks, Matt Cutts conseille … d’être patient et de communiquer pour augmenter la notoriété du site (et donc probablement les liens entrants).
C’est tout ce que nous dit Matt Cutts sur la génération des sitelinks. Aucune information sur la façon dont sont choisies les pages. Aucune non plus sur celle dont sont générés les titres des sitelinks.
Pas très intéressant.
C’est pourquoi j’ai fait un petit audit d’un site que je connais bien.
Etude de cas
Lorsqu’on cherche le nom de la marque sur google.fr, le premier résultat est bien le site avec 7 sitelinks:
Lien sur la homepage
La première chose qu’on remarque c’est que toutes ces pages ont un lien depuis la homepage.
C’est une constante que j’ai constatée pour tous les sites sur lesquels j’ai pu travailler ou que j’ai analysés.
Les sous-domaines considérés comme des pages du domaine principal
La page “espace client” fait partie d’un sous-domaine du domaine principal. Pourtant, elle est ici considérée comme faisant partie intégrante du site puisque Google l’utilise dans les sitelinks, au même niveau que les autres pages du site. (ce qui peut soulever pas mal de questions sur le poids des noms de domaines vs. sous domaines pour le référencement en général).
Nommage des liens à partir de plusieurs sources
La balise H1 de la page
C’est le cas pour la page Rechercher un conseiller. Aucun des liens pointant vers cette page ne contient ce texte, sur l’ensemble du site. Elle n’est pas non plus utilisée dans la page ailleurs que dans la balise H1.
Le texte d’un lien (anchor text)
Les textes “Habitation, Famille & Loisirs”, “Epargne & Placements” et “Retraite & Assurance Vie” sont utilisés dans le menu de gauche de l’ensemble des pages internes du site en tant qu’anchor text pour les pages correspondantes. Par contre, un texte différent est utilisé pour faire le lien vers ces pages depuis la homepage.
Google semble donc utiliser la redondance d’un texte en tant que lien vers une page pour déterminer le nom de son sitelink.
Le bouton “Obtenez un tarif” existant sur la homepage n’est pas une image mais bien un texte. Les termes “obtenez un tarif” sont également utilisés sur une autre page, dans la balise alt d’une image pointant vers la même page de formulaire de tarification en ligne.
La source réelle du texte utilisé pour nommer ce sitelink n’est donc pas tout à fait claire dans ce cas.
La balise alt d’un lien image
Le texte “Votre espace client AXA” est utilisé en tant que balise alt de l’image qui sert de lien vers la page d’identification à l’espace client. Ce lien, sous cette forme, existe sur presque l’intégralité des pages du site, sauf… sur la homepage. Sur la Homepage, le lien est en texte.
La phrase “Votre espace client AXA” n’existe nul part sur le site en dehors de la balise alt de l’image du lien .
Par contre, je ne vois aucune explication au texte complet utilisé par Google pour ce sitelink, à savoir l’ajout du “Votre …” à la fin. Ce qui nous donne “Votre espace client AXA Votre …” au lieu de simplement “Votre espace client AXA”.
Cas particulier
La page appelée “Auto – Moto” dans les sitelinks permet d’accéder aux différentes offres Auto et Moto. Sont nom est donc pertinent… sauf qu’il n’apparaît nul part sur l’ensemble du site sous cette forme “Auto – Moto”.
Le texte des liens qui pointent vers cette page est soit “auto, moto” soit “auto-moto” (sans les espaces).
Aucune balise alt ne contient ce texte, aucun balise H1, aucune balise title.
La source utilisée par Google pour générer ce sitelink est donc un mystère complet.
La balise <title>
Dans certains cas, Google utilise tout ou partie de la balise <title> de la page.
Si vous cherchez TextPad sur Google (Editeur de texte que je vous recommande d’ailleurs), vous verrez le sitelink “Introduction to TextPad” qui correspond à la balise <title> et à la balise META Description de la page.
Bien que les 2 balises soient identiques, je pense que Google a plutôt tendance à faire confiance à la balise <title>.
Mais comment sont choisies les pages ?
Matt Cutts nous explique dans la vidéo qu’un algorithme choisit les pages. Par contre, aucune information n’est donnée quant aux critères de sélection des pages qui serviront à construire les backlinks. L’un des critères qui est souvent cité comme probable par les référenceurs est le volume de visites que reçoivent ces pages.
Voici donc, dans le graphique ci-dessous, le volume de visites (toutes sources confondues) pour le top 30 des pages du site avec comme indice 100 le nombre de visites de la page la plus fréquentée. J’ai mis en violet les pages qui sont dans les sitelinks:
Constat: Il ne s’agit pas du top 10 des pages. Nous avons la 2ème, 5ème, 6ème, 8ème, 10ème, 18ème et 19ème page les plus fréquentées du site.
NB: Les pages de campagnes sont exclues de ce graphique pour ne pas fausser les résultats.
Il serait intéressant de mesurer le trafic en provenance de Google pour chacune de ces pages avant qu’elles ne soient devenues des sitelinks car Google n’étant pas censé connaître le trafic des sites (surtout s’ils ne sont pas mesurés par Google Analytics), la seule donnée qu’il peut avoir est le nombre de visites qu’il génère pour chaque page du site.
Mesurer cette donnée à l’heure actuelle fausserait les résultats puisque le simple fait que les pages soient en sitelinks augmente le trafic qu’elles reçoivent en provenance de Google.
Peut on contrôler ses sitelinks?
Dans ce contexte assez obscure sur le choix des pages et sur leur nommage, peut on s’assurer que les pages qui nous intéressent soient bien choisies par Google?
Plus ou moins. Dans l’interface Google Webmaster Tools, il existe une option qui permet de supprimer un sitelink que l’on juge non pertinent. Par contre, il est impossible de le remplacer par un autre lien, de changer un nom de sitelink ou d’ajouter un nouveau sitelink.
Le contrôle est donc plutôt limité.
Pour résumer, il faut faire quoi pour avoir des sitelinks?
Pour tenter d’avoir des sitelinks cohérents, je dirais que les règles sont assez simples, ce sont les optimisations de base du référencement. Il faut s’assurer de la pertinence des éléments suivants sur l’ensemble du site :
- Balises titles
- Balises H1
- Textes des liens internes
- Balises alt des images
- Etc.
Et bien sur, avoir un site avec un minimum de notoriété, des liens en provenance d’autres sites et donc un minimum de trafic pour que l’algorithme de Google daigne se pencher sur votre cas.




