Indexation : comprendre le fonctionnement de l’index Google

les sites d’entreprises
Comment bien démarrer un projet de site web d’entreprise ou d’association ?
avril 15, 2016
Le Code HTML
Qu’est-ce qu’une page HTML?
avril 15, 2016
index Google

Le domaine d’informatique regorge de notions qu’il faut certainement comprendre si on souhaite vraiment comprendre le fonctionnement d’un site web. Envie de savoir comment indexer un site sur internet et dans Google plus particulièrement ? Notre de rédacteurs vous a collecté des informations pour savoir tous les principes qui se cachent derrière ce terme technique.

Définition de l’indexation

L’indexation est  l’action du robot (c’est-à-dire d’un programme), moteur de recherche qui parcourt un site, dans une phase dite de « crawl » du verbe « parcourir » en anglais et il en indexe ainsi le contenu. Si on dit que que le robot (le spider) indexe un site, cette expression veut dire qu’il visite le site, en copie le contenu et le stocke dans les serveurs du moteur de recherche.

Nota bene

L’utilisation terme « indexation » au sens de l’indexation Google n’est pas traité de la même manière que l’indexation des moturs de recherche Yahoo et Bing. Mais les systèmes d’indexation sont assez proches dans leur fonctionnement.googlebot.

Les étapes d’indexation

L’indexation se déroule en différentes phases :

La première phase est celle de l’exploration du web : le robot d’exploration (ou robot d’indexation) de Google, nommé le Googlebot, va explorer les pages du web.

Il suit dans la deuxième phase les liens présents sur ces pages pour découvrir au fur et à mesure de nouvelles pages et de nouveaux contenus.

Dans la dernière, il visite les pages et les indexe dans la base de données (c’est-à-dire, qu’il copie et enregistre les pages dans les serveurs situés dans les data center de Google).

Taille de l’index Google

L’index correspond à la base de données de Google. Aujourd’hui, la taille de l’index est estimée à plus de 30 000 milliards d’URL d’après Wikipédia, soit plus de 100 milliards de pages au minimum. Cela ne veut pas dire que représente tout le web parce le web dans sa globalité est beaucoup plus vaste et Google ne peut indexer indexe que pages « indexables », c’est-à-dire les pages auxquelles son robot peut accéder.

Les différents index

Depuis 2003, Google est muni de 2 index :

L’index principal : qui correspond aux pages désignées par Google et considérées comme les plus intéressantes parmi toutes celles indexées.

L’index secondaire : il comprend des pages « de second choix », c’est à dire celles de moindre qualité ; et c’est le cas des pages dupliquées (problématique de duplicate content) ou de « mauvaise qualité » par Google. Ces pages seront ignorées par Google et ne pourront pas ressorti dans les SERPS (pages de résultats) quand les internautes font la recherche.