Problemes d'indexation sur Google ?

par Alexandre Jairson - jeudi 7 octobre 2021 (12h14) , mis a jour le dimanche 2 octobre 2022

Cela fait quelques semaines, mois, que Google nous fait bien souffrir avec l’indexation des nouvelles URLs. Autant vous dire que quand on est éditeur, qu’on produit plusieurs dizaines d’articles par semaine et que ceux-ci ne rentre pas dans la Google Box, ça fait mal et ça coute cher pour rien au final !

Google dépendance ?

Oui c’est évident et pathétique à la fois ! La dépendance à Google est énorme. Nous travaillons presque pour le moteur de recherche qui lui a besoin de tout notre contenu pour servir à quelque chose, en tous cas pour ce qui concerne le moteur de recherche, mais il en fait ce qu’il veut, peut nous bouder et surtout ne communique pas, ou plutôt, de manière stupide en donnant des infos inutiles et en cherchant sans arrêt à culpabiliser, à diviser, au sein de la communauté des éditeurs de sites internet

Un simple test d’indexation

Alors oui certains sites, dits forts, n’ont pas ce soucis, ou rarement. Et c’est le cas de repandre.com. Nous avons donc l’intention de faire un test sur une cinquantaine d’URL qui ne s’indexent pas depuis un moment tout en proposant du contenu pertinent et de qualité :

Vous noterez que dans cette liste nous trouvons même des urls repandre.com donc personne n’est l’abri !

Google confirme

Google a déclaré sur Twitter, via le compte Search Liaison, "nous travaillons actuellement à la résolution de deux problèmes d’indexation distincts qui ont eu un impact sur certaines URL. L’un concerne l’indexation mobile. L’autre concerne la canonicalisation, c’est-à-dire la manière dont nous détectons et traitons le contenu dupliqué. Dans l’un ou l’autre de ces deux cas, les pages peuvent ne pas être indexées."

Problème de l’indexation mobile. Google a expliqué que dans certains cas, il n’indexait pas les pages "si une page précédemment indexée a disparu, il peut s’agir d’un problème d’indexation mobile, c’est-à-dire que nous ne sélectionnons aucune page à indexer."

Problème de canonicalisation. Google a également ajouté qu’il peut ne pas indexer des pages "si le problème de canonicalisation est impliqué, URL Inspector peut montrer l’URL comme un duplicata & le canonical sélectionné par Google sera différent de celui-ci." J’ai posté de nombreux exemples de ce problème ici sur la Search Engine Roundtable et Google a même demandé des exemples plus tôt cette semaine.

Tout a commencé à la fin du mois de septembre, lorsque sont apparues un certain nombre de plaintes concernant la suppression de pages de l’index de recherche de Google. De nombreuses personnes ont commencé à signaler des problèmes de couverture de l’index et des erreurs de crawl sur des forums, des groupes Facebook, etc.

Twitter a été le canal le plus populaire pour ce type de problèmes, comme d’habitude, car c’est le seul endroit où il y a une chance qu’un représentant de Google réponde réellement au problème.

La même chose s’est produite dans ce cas, avec la mention que cette fois, le représentant de Google, John Mueller, n’était pas au courant du problème, comme indiqué dans la capture d’écran ci-dessous.

Bien sûr, cela laisse beaucoup de place aux spéculations sur cette question, mais nous préférons vous laisser ces pensées et vous présenter uniquement les faits pour le moment.

Peut-on résoudre ce problème ?

Mes tâches quotidiennes consistent à optimiser les sites Web d’un point de vue technique de référencement afin de les rendre plus visibles dans Google et, par conséquent, j’ai accès à plusieurs dizaines de sites dans Google Search Console.

J’ai décidé de mettre cela à profit afin d’espérer rendre les problèmes d’indexation populaires... eh bien, moins populaires.

Par souci de transparence, j’ai décomposé la méthodologie qui m’a conduit à des conclusions intéressantes. Méthodologie

J’ai commencé par créer un échantillon de pages, en combinant des données provenant de deux sources :

J’ai utilisé les données de nos clients qui étaient facilement accessibles pour moi.
J’ai demandé à d’autres professionnels du référencement de partager des données anonymes avec moi, en publiant un sondage sur Twitter et en contactant directement certains référenceurs.

Le possibles problèmes listés

Qualité

Parmi les problèmes de qualité, on peut citer le fait que vos pages soient pauvres en contenu, trompeuses ou trop tendancieuses.

Si votre page ne fournit pas un contenu unique et précieux que Google souhaite montrer aux utilisateurs, vous aurez du mal à la faire indexer (et il ne faut pas s’en étonner).

Contenu dupliqué

Google peut considérer certaines de vos pages comme du contenu dupliqué, même si vous n’en aviez pas l’intention.

Les balises canoniques pointant vers des pages différentes constituent un problème courant. Le résultat est que la page originale n’est pas indexée.

Si vous avez du contenu en double, utilisez l’attribut de balise canonique ou une redirection 301.

Cela vous permettra de vous assurer que les mêmes pages de votre site ne sont pas en concurrence les unes avec les autres pour les vues, les clics et les liens.

Budget de crawl

Qu’est-ce que le budget de crawl ? En fonction de plusieurs facteurs, Googlebot n’explorera qu’un certain nombre d’URL sur chaque site Web.

L’optimisation est donc essentielle ; ne le laissez pas perdre son temps sur des pages qui ne vous intéressent pas.

Erreurs Soft 404

Les erreurs 404 signifient que vous avez soumis une page supprimée ou inexistante à l’indexation. Les Soft 404 affichent l’information "not found", mais ne renvoient pas le code d’état HTTP 404 au serveur.

La redirection de pages supprimées vers d’autres qui ne sont pas pertinentes est une erreur courante.

Les redirections multiples peuvent également se traduire par des erreurs 404. Essayez de raccourcir vos chaînes de redirection autant que possible.

Problème de crawl

Il existe de nombreux problèmes de crawl, mais l’un des plus importants est un problème avec le fichier robots.txt. Si Googlebot trouve un fichier robots.txt pour votre site mais ne peut pas y accéder, il n’explorera pas du tout le site.

Internet