Pour bien débuter son référencement il y a quelques règles toutes simples à suivre. Pour les trucs en plus consultez la rubrique du même nom (ou presque).

Il existe deux types de critères pris en compte par les moteurs pendant le référencement :
 -1 : les critères online
 -2 : les autres (critères offline, vous aviez deviné ;-)

NB : ici nous ne parlerons que des moteurs, les annuaires étant contrôlé par des humains les paramètres du type balise <méta> ou robots.txt ne rentrent pas en ligne de compte quand on leur soumet un site.


La qualité de votre référencement (j'entends par là votre présence mais surtout votre positionnement dans les moteurs), en plus du contenu textuel de vos pages, dépendra de certaines balises HTML. Passons en revue les éléments de votre page qui seront examinés par les spiders des moteurs (classement par ordre décroissant d'importance) :

 1- Le contenu de la balise title
Pour ceux qui ne sauraient pas (il y en a-t-il ??) c'est la balise qui définit le titre de la page. Son contenu apparait dans la barre bleue tout en haut du navigateur. Un bon référencement commence toujours par un bon titre ! Le poids de cette balise est très important dans les algorithmes de la plupart des moteurs (surtout pour altavista, Northernlight et Voila). Donc : soignez là !

 2- Le texte même du body
Forcément... Le moteur viendra indexer le contenu de votre page avec son robot ( NB : de plus en plus les robots n'indexent qu'une partie des pages, donc les pages très lourdes sont défavorisées).
A partir de là il calculera l' IDM pour chaque mot clé (mot non-vide). L'IDM est l'indice de densité d'un mot, c'est à dire le nombre de fois où il est présent dans la page, proportionellement au nombre total de mots contenus dans la page (vous me suivez ?). Ce qui donne : nombre d'occurrences du mot x / nombre total des mots...
NB : placez les mots qui vous tiennent à coeur au début de la page !
NB2 : plus une page contiendra de code "hors html" (javascript notamment : les robots ne comprennent pas encore et ne prennent donc pas en compte le javascript) avant le body, moins le texte aura de poids pour les moteurs...

 3- Les balises métas
Je les ai mises en troisième position, mais je me demande si je n'aurais pas pu les mettre en quatrième... En effet elles ont de moins en moins de poids dans le positionnement. Les balises keywords et description restent cependant nécessaires au référencement.

 - keywords : elle contient les mots clés qui caractérisent votre site. On peut mettre jusqu'à 200 mots (mais mettre peu de mots accentue peut être leur poids vis à vis des moteurs...). Les mots sont séparés par des virgules. Moins bien prise en compte par les moteurs qu'auparavant (trop sujette au spam).
 - description : elle contient une ou deux phrases expliquant le contenu du site. Reste importante car c'est elle qui apparait dans la fiche descriptive de votre site sur la page de résultats des moteurs (après le title et avant le body). Ne dépassez pas les 150 caractères pour son contenu.

Ces balises se placent dans le head après le title :

<head>
<title>Le schmilblick à plumes </title>
<meta name="description" content="ce site traite de la question du schmilblick à plumes">
<meta name="keywords" content="schmilblick, schmilblick à plumes" lang="fr">
</head>


 4- Le robots.txt et sa balise
Le fichier robots.txt est un fichier texte (comme son extension l'indique...) à placer à la racine de votre site, il est censé donner le feu vert ou le feu rouge aux spiders qui viendront crawler vos pages. Pour qu'il soit reconnu par les spiders il faut le nommer robots.txt.
Vous pouvez faire le test sur de nombreux site : vous tapez l'url du site / robots.txt ( exple : http://www.thesite.com/robots.txt ) et vous avez de fortes chances de tomber sur quelque chose. Essayez déjà sur tootrouver ici.

Un fichier robots.txt qui accepte les spiders de tous les moteurs sur la totalité des pages a cette tête :
User-agent: *
Disallow:

Il dit : "Eyh ! tous les spiders vous pouvez venir !"

S'il avait voulu dire : "Eh toi là, le spider d'altavista, j'aime pas ta tête ! Dégage de mes pages! ", il se serait exprimé de cette façon :
User-agent: altavista
Disallow: /

Mais il aurait pu dire aussi : "Ok tout le monde rentre (sauf toi altavista) mais vous ne visitez pas ma cave !" :
User-agent: altavista
Disallow: /
User-agent: *
Disallow: /macave.htm

Pour être sûr d'être bien clair, on peut créer directement une balise méta robots dans le head:
<meta name="robots" content="index, follow">
: cette balise accepte tous les robots (index) et les invite à suivre les liens de la page (follow).
Les autres attributs de cette balise : noindex (refus d'être crawler) et nofollow ("ne suit pas les liens !").

 5- Construction de la page
Nous l'avons déjà vu en partie : les mots en débuts de page seront mieux pris en compte.
Autre chose imortante : le contenu des balises <h> pèsera plus lourd qu'un mot perdu dans le body. Et <h1> aura plus d'importance que <h2>, etc...

 6- Les liens
Le texte contenu dans la balise <a href> aura lui aussi plus d'importance.

 7- L'attribut alt
L'attribut de la balise <img> peut avoir une certaine importance selon les moteurs (valable surtout pour ceux qui font des recherches d'images).

 8- Les commentaires
Le contenu de la balise <!-- .... --> peut lui aussi être pris en compte.

 Conclusion (provisoire)
Tout ce que je viens de vous dire est faux... mais quand même vrai.
Ce qui est sûr c'est que rien n'est jamais fixé avec les moteurs, il y a quelques certitudes (importance du title et du texte, rôle du méta description...), mais chaque moteur a son comportement propre (son algorithme) : ce qui sera bon pour altavista vous fera peut être descendre chez Google.
Autre chose de sûr : les critères offline prennent de plus en plus d'importance !


Ce sont tous les critères qui ne dépendent pas de la source html.
Face à la croissance exponentielle des pages internet, les moteurs ont de plus en plus tendance à valoriser ce type de critère par rapport aux critères in paginus htmlus.
C'est aussi une façon d'éviter le spam : les webmasters peuvent beaucoup moins manipuler ces éléments que le code de leurs pages...

 1- L'indice de popularité
L'IPP (Indice de Popularité d'une Page) est de plus en plus prise en compte dans les algorithme de pertinence des moteurs. Google a été un précurseur en la matière.
"On pourrait définir cet indice par le fait qu'il est proportionnel au nombre de liens menant d'autres pages web vers la page dont l'IPP est calculé" Je reprends ici la définition donné par Olivier Andrieux, grand Gourou du référencement en France, et, en faisant un lien vers son site, j'augmente ainsi son IPP. Vous avez compris ? ;-)
Ce système, s'il est judicieux (Google est un bon moteur :-)), est aussi assez injuste : les riches s'enrichissent et les pauvres s'appauvrissent. Autrement dit : plus un site est connu, plus son IPP est fort ; plus il est fort, mieux il sera classé par les moteurs ; mieux il sera classé, plus il sera connu, etc...
La solution ? les partenariats web, le netlinking, etc...

 2- L'indice de clic
Cet indice est tout récent, quelques moteurs seulement avouent l'utiliser.
C'est Directhit qui l'a utilisé le premier. Altavista semblerait le suivre aujourd'hui.
En quoi consiste-t-il ? : plus il y a d'internautes qui cliquent, sur la page de résultats du moteur, sur un lien allant vers votre site, et meilleur sera son classement futur. L'adresse IP de l'internaute cliquant sur le lien proposé est gardée en mémoire pour éviter toute fraude (internaute cliquant des centaines de fois à la suite pour augmenter l'indice de clic d'un site).
Là encore le système est judicieux : les sites les plus pertinents montent dans le classement ; mais là aussi le système est injuste : il y a peu de chance que votre site, qui se trouve à la septième page de résultats, soit visité par l'internaute (la plupart s'arrête au 2 ou 3 premières pages des résultats). Les premiers auront des chances de rester premiers, les autres resteront...à leur place.
Donc là aussi : cercle vicieux ou vertueux, selon l'endroit où l'on se trouve...