En utilisant le rapport Indexation des pages de Google Search Console, vous pouvez obtenir une liste complète de toutes les URL que Google a découvertes sur votre site et de leur statut actuel dans l’index. Les URL qui ne figurent pas dans l’index Google ne peuvent pas être classées dans les résultats de recherche Google.
Pour les non-experts, Google dit que vous pouvez ignorer ce rapport si votre site a moins de 500 pages. Dans un petit guide du débutant sur l’utilisation de la Search Console, Google a-t-il trouvé toutes vos pages ? Il est également souligné que vous ne devriez pas vous attendre à ce que toutes les pages d’un grand site soient indexées.
Découverte du rapport Indexation des pages dans la Search Console
Sur le rapport Indexation des pages présenté ci-dessous, nous pouvons voir que 2 075 pages ont été indexées (2.08K en vert), mais 6 008 pages (6.01K en gris) ne sont pas indexées. Le graphique en haut de l’écran montre comment cette situation a évolué au fil du temps. Dans cet exemple, la proportion de pages indexées / non indexées a été régulière au cours des 3 derniers mois.
Ce n’est pas nécessairement un problème. Comme nous l’avons vu dans un chapitre précédent, le sitemap qui répertorie toutes les pages, articles et pages de catégories de ce site WordPress ne contient que 979 URL. Vérifiez d’abord les erreurs de votre sitemap avant de vous plonger dans le rapport complet ci-dessous.
Sur le rapport complet, après le graphique, Google énumère les raisons pour lesquelles les URL ne sont pas indexées. Cela montre la source (« Site Web » si le problème vient du site ou « Google » si la raison du problème est une décision de Google), l’état de validation du problème, la tendance du problème dans le temps et le nombre de pages touchées par le problème.
En cliquant sur chaque raison, vous pouvez voir un rapport complet avec une brève description de la raison de la non-indexation et un lien EN SAVOIR PLUS qui vous mènera à la section appropriée de la documentation d’aide de Google Search Console. Vous pouvez également cliquer sur le bouton VALIDER LA CORRECTION dans la section supérieure quand vous avez résolu le problème.
En dessous de cette première section, il y a un graphique montrant l’évolution du problème au fil du temps et en dessous de cela encore, il y a une section énumérant des exemples de pages avec le problème.
En passant le curseur de votre souris sur chaque ligne, vous verrez apparaître des icônes qui vous permettent de copier l’URL, de l’ouvrir dans un nouvel onglet ou de l’inspecter. Vous pouvez également cliquer sur la ligne pour afficher une fenêtre contextuelle qui vous permettra d’inspecter l’URL ou de tester que les robots.txt n’empêchent pas Google de l’explorer.
Erreurs courantes dans le rapport d’indexation des pages
Voici quelques idées sur la façon dont vous pouvez résoudre certains problèmes d’indexation courants :
- Introuvable (404): ce sont des adresses de pages que Google a trouvé en explorant votre site ou d’autres sites Web, mais pour lesquelles aucune page existe. L’URL a envoyé un code 404 lors de la dernière exploration de Google (la date est affichée à droite dans le rapport). La meilleure pratique consiste à vous assurer que vous ne créez pas de liens vers des pages qui renvoient des erreurs 404 à partir de votre site Web. La majorité des pages introuvables dans la capture d’écran ci-dessus sont des URL avec la variable dl_id et correspondent aux liens de téléchargement fournis sur le site. Ceux-ci doivent être corrigés pour s’assurer qu’ils ne pointent pas vers des pages supprimées. Il peut être normal d’avoir beaucoup de pages introuvables lorsque l’on prend en compte les versions historiques de votre site. Il n’y a aucun moyen de forcer Google à oublier des pages qu’il a déjà découvertes, mais vous pouvez rediriger les anciennes URL vers des pages existantes.
- Bloqué en raison d’une interdiction d’accès (403): l’erreur 403 comme l’erreur 404, signifie qu’une page n’est plus accessible. Vous pouvez traiter ces erreurs de la même manière que les erreurs introuvables (404).
- Bloqué en raison d’une demande non autorisée (401): une autre erreur de page introuvable peut se produire lorsque Google rencontre une demande d’autorisation (login, mot de passe) lors de la tentative d’accès à une URL. Testez tous les exemples d’URL vous-même pour vous assurer que vous recevez également une demande d’autorisation, essayez le mode de navigation privée pour vous assurer que vous testez ces pages sans être connecté au site Web. Si vous pouvez accéder à des URL marquées « Bloqué en raison d’une demande non autorisée (401) » sans être autorisé, peut signifier qu’un administrateur du site a bloqué Google tout en essayant de protéger le site contre les robots d’exploration. Consultez la ressource Validation de Googlebot et d’autres robots d’exploration Google pour résoudre ce problème.
- Pages avec redirection : ce sont des URL que Google a trouvées pour votre site, mais qui redirigent maintenant vers d’autres URL. Par exemple, https://protuts.net/supprimer-bouton-/ redirige vers https://protuts.net/supprimer-bouton-affichage-bureau-windows-7/. Cela s’est probablement produit à la suite d’une modification du permalien. Ce n’est pas un problème si l’ancienne URL n’est plus utilisée comme lien à l’intérieur de votre site. Il peut être utile d’inspecter l’URL pour voir si la page d’origine est répertoriée. La meilleure pratique consiste à vous assurer que vous ne créez pas de liens internes vers des liens redirigés.
- URL marquée « noindex »: les extensions SEO pour WordPress comme SEOPress vous noindex », ce qui signifie que vous ne voulez pas que Google les inclue dans ses résultats de recherche. Ce rapport affiche les pages que Google a découvertes, mais pour lesquelles il a reçu l’ordre de ne pas les indexer. Certains propriétaires de sites n’indexeront pas les pages d’auteur, par exemple, pour éviter la duplication de contenu entre ces pages, les pages catégories et les articles.
- Page en double sans URL canonique sélectionnée par l’utilisateur: ce message d’erreur indique que Google a découvert des pages qui contenaient le même contenu que d’autres pages déjà indexées. Cela peut être simplement dû à une duplication d’article dans WordPress et une publication avec deux permaliens distincts. Il est recommandé de toujours définir une URL canonique pour chaque page que vous publiez afin d’éviter que cette erreur ne soit pas générée de manière incorrecte par les variables. La balise « canonical » est ajoutée automatiquement si vous utilisez SEOPress. Dans le cas où vous dupliquez le même contenu sur deux permaliens différents, vous devez modifier manuellement la balise canonique dans la métabox SEO fournie par SEOPress pour indiquer l’URL préférée. Ce message d’erreur « sans canonique sélectionnée par l’utilisateur » signifie que Google n’a pas trouvé de balise canonique et a dû décider quelle URL devait être préférée.
Les exemples ci-dessus couvrent la plupart des erreurs de pages « Non indexées » que vous pouvez voir dans Google Search Console. Pour une liste complète des erreurs possibles et un avertissement avec des explications supplémentaires, consultez la page d’aide pour le rapport sur l’indexation des pages de Google.
Lorsque vous configurez Google Search Console pour la première fois, il est nécessaire de passer un peu de temps dans ce rapport pour voir si vous pouvez résoudre les problèmes d’indexation.
Utilisez le bouton VALIDER LA CORRECTION lorsque vous avez résolu les problèmes. Revenez régulièrement (une fois par mois par exemple) au rapport pour vous assurer qu’il n’y a pas de pic de nouveaux problèmes. Normalement, vous serez informé par un email de Google s’il y a une augmentation importante des problèmes d’indexation.