Je viens de lire un article de AYMERIC sur son fameux blog: AJBLOG.... En lisant son post (Optimiser la structure Dotclear pour le référencement) j'ai eu comme une envie irrépressible de commenter quelquefois ligne par ligne ses propos.
Pour que les choses soient claires je crois savoir qu'AYMERIC et moi nous nous apprécions et donc mon post n'a qu'un seul objectif: vous faire sourire....
Maintenant que j'ai pris des gants et assuré AYMERIC de mon amitié je peux lancer la machine: donc en gris clair vous trouverez le texte original et en gras mes commentaires.
C'est parti.....et on commence par son texte initial:
"Cet article a pour seule finalité de vous faire partager mes découvertes à droite et à gauche pour optimiser le code de Dotclear de façon à éviter certains freins à leur indexation, on ne va pas parler ici de contenu, de backlinks ou autres, mais uniquement de code.
1 - Simplifions les URLs de nos billets
(Aymeric je suis d'ac avec toi il nous faut nous simplifier la life...)
Par défaut, Dotclear propose des urls du type http://monsite.net/dotclear/index.php/2005/05/05/42-post-titre, c'est sympa, mais on veut quelque chose de plus simple et de plus lisible.
En effet dotclear par défaut propose des urls qui moi aussi m'insuportent.
C'est la partie la plus simple, pour cela il suffit d'utiliser le fameux Plugin Personnalisation d'URLs
( ah je suis ravi de le revoir ce plugin, il me manquait d'ailleurs j'en parlé à ma femme ce week end) de Steve Frecinaux (il va bien?) dont vous trouverez la source auto installable sur le wiki de Dotclear dans la page de plugins.
Attention prenez la solution auto installable parce que la solution installable de force ne fonctionne pas.
Choisissez le format qui vous convient, pour ma part j'ai choisi "Sans date ni numéro de billet (titre)" en n'oubliant pas de cocher la compatibilité avec tous les autres modes. (Tu fais comme tu veux)
2 - Un Dotclear proprement Ă la racine (c'est vrai que quelque fois dotclear est limite crade, un peu de laisser aller je pense...)
Ce titre fait référence à l'excellent article de Xave ( il va mieux..Xave?) dans le Petit Dotclear illustré : Un DotClear proprement à la racine.
Lisez bien l'article (mais c'est qu'il me vexerait !! Non, Non je vais lire l'article mais mal comme cela pour le plaisir..) pour bien comprendre les histoires d'URL rewriting et revenez ici, car certaines parties de sa solution m'ont posé problème.
Moi le soir pour endormir mon nain je ne lui raconte pas des histoires d'URL, mais du petit amadeus qui cherche un nom à sa soeur, ... mais bon chacun fait fait ce qui lui plaît plaît....Tiens ça me rappelle une chanson ça?
J'ai, pour ma part, profité de ma migration vers Dotclear 1.2.7 pour enfin me débarrasser de cet /index.php/ disgracieux dans mes précédentes URLs. C'est vrai que : /index.php/ c'est pas beau...
Premier problème : certaines de mes pages devenaient inaccessibles.
J'avais pourtant tout bien fait et je me retrouvais avec un .htaccess ressemblant à ça :
Options +MultiViews
RewriteEngine On
RewriteCond %{REQUEST_URI} !dotclear
RewriteCond %{REQUEST_URI} !blog
RewriteRule (.*)$ /blog.php/$1
MĂŞme avec le dictionnaire de traduction en ligne reverso.net j'ai rien compris aux 5 lignes ci-dessus
Après avoir un peu cherché, il se trouve que tous mes billets dont les urls contenaient le mot "dotclear" étaient devenues inaccessibles, je ne suis pas un pro de l'URL rewriting, mais j'ai supposé un effet de bord du : RewriteCond %{REQUEST_URI} !dotclear
Alors là c'est excellent il faut que je l'écrive moi même pour comprendre à quel point je suis à des années lumières de cet extraterrestre:
" j'ai supposé un effet de bord du :RewriteCond %{REQUEST_URI} !dotclear " Franchement il est pas comme nous ?
Je pouvais au choix refaire toutes les adresses des billets contenant le mot Dotclear, ou trouver une autre solution, vu que certains de ces billets sont les premières sources de trafic du blog et que je ne me sentais pas de faire des redirections pour chacun de ces billets ( je comprends tu dois être fatigué) et surtout ça me gênait de supprimer le terme Dotclear des URLs. Tu as raison si c'est pour faire quelque chose que tu vas regretter il faut pas le faire...
La solution ? Changer le nom (ou de métier: je sais pas moi...cheminot par exemple... !!) du répertoire dotclear en autre chose, de préférence un mot/nom que je ne risque pas d'utiliser à l'avenir dans un titre de billet.
J'ai choisi le nom rahhh comme nom de répertoire, ne cherchez pas, je suppose que ça avait à voir avec mon état d'esprit du moment.
Ce qui nous donne maintenant le .htaccess suivant :
Options +MultiViews
RewriteEngine On
RewriteCond %{REQUEST_URI} !rahhh
RewriteCond %{REQUEST_URI} !blog
RewriteRule (.*)$ /blog.php/$1
Et voilà il remet ça!!!!!!je me demande s'il s'agit pas d'un TOC (Trouble Obsessionnel Compulsif) ?
Ohhh surprise, mes jolis billets parlant de Dotclear sont de nouveau accessibles. C'est beau la joie d'un webmaster !
Bref, passons au deuxième problème (et bien on n'est pas encore couchés) : mes anciennes pages sont référencées avec l'adresse http://www.ajblog.fr/index.php/... et sont donc inaccessibles directement à partir des moteurs de recherche.
Pas grave, on va rediriger tout ça avec l'ajout d'une petite ligne dans le .htaccess, RedirectMatch 301 index.php/(.*) http://www.ajblog.fr/$1, et ça devrait marcher... Ah ben non, forcément.
La faute à la réécriture d'urls, donc on va devoir y ajouter une exception pour qu'elle ne force pas le index.php. On se retrouve alors avec le .htaccess suivant :
Options +MultiViews
RedirectMatch 301 index.php/(.*) http://www.ajblog.fr/$1
RewriteEngine On
RewriteCond %{REQUEST_URI} !rahhh
RewriteCond %{REQUEST_URI} !blog
RewriteCond %{REQUEST_URI} !index.php
RewriteRule (.*)$ /blog.php/$1
Vous êtes témoin il récidive, non c'est trop dur pour moi, je vais demander à ma mère si je ne peux pas retourner dans son ventre...JE NE VEUX PLUS VOIR CA !!!
C'est beau, tout fonctionne, mes anciennes urls redirigent bien vers les nouvelles et je me suis ENFIN débarrassé du /index.php/, je suis assez content de moi au final, car je l'avoue, la réécriture d'URLs reste encore une science un peu floue pour moi.
Amis, voisins, voisines, lecteurs de ce blog.... sortez le CHAMPAGNE!!!! il va enfin s'arrĂŞter !
Maintenant que j'ai les URLs que je désire, enfin, à peu près, je vais m'attaquer à un autre point qui semble important : le duplicate content.
3 - Eviter le duplicate content ( c'est pas vrai il continue !, c'est un cauchemard je vais me réveiller devant mon écran d'ordinateur avec une photo D'annie CORDIE un joli plan de financement avec beaucoup de chiffres...)
.....( je passe sur quelques explications trop simples, mais reprenons le fil du post)
Mais que faire avec le robot.txt ? (Ă la poubelle le robot!!)
On va y coller (une claque ?) des exceptions, en clair, on va essayer d'indiquer aux robots ce que l'on ne veut pas qu'ils crawlent et donc référencent.
Voici ce que j'utilise pour l'instant : contenu du robots.txt
Sitemap: http://www.ajblog.fr/gsitemap
User-agent: *
Disallow: /rahhh/ecrire/
Disallow: /rahhh/themes/
Disallow: /rahhh/conf/
Disallow: /rahhh/inc/
Disallow: /rahhh/layout/
Disallow: /rahhh/share/
Disallow: /rahhh/l10n/
Disallow: /rahhh/rss.php
Disallow: /rahhh/rss-bis.php
Disallow: /rahhh/atom.php
Disallow: /rss.php
Disallow: /atom.php
Disallow: /rss-bis.php
Disallow: /2007
Disallow: /2007/10/
Disallow: /2007/09/
Disallow: /2007/08/
Disallow: /2007/07/
Disallow: /2007/06/
Disallow: /2007/05/
Disallow: /2007/04/
Disallow: /2007/03/
Disallow: /2007/02/
Disallow: /2007/01/
Disallow: /2006
Disallow: /2006/12/
Disallow: /2006/11/
Disallow: /2006/10/
Disallow: /2006/09/
Disallow: /2006/08/
Disallow: /2006/07/
Disallow: /2006/06/
Disallow: /2006/03/
Une petite question docteur AYMERIC, il ne manquerait pas le Disallow: /2006/02/ par hasard ?
User-agent: Googlebot-Image
Allow: /*
Bon, encore une fois, je ne suis pas un pro du robots.txt (et bien jette le je te dis...), j'en suis encore à essayer de comprendre toutes les subtilités, j'y suis allé un peu à la hache ( tu n'aurais pas un côté néandertalien par hasard ???)
En gros, je ne veux pas que les robots indexent certains répertoires "systèmes" de dotclear, qu'ils ne référencent pas les urls avec les dates (bon je suppose qu'un simple Disallow: /2006/ et /2007/ auraient suffit, moi pareil) et qu'ils ne référencent pas mes flux de syndication, car il semble d'après certaines de mes lectures qu'il vaut mieux éviter cette autre source de duplicate content.
Note pour jean-Philippe (c'est moi): chercher ce que veut dire duplicate content.
Le reste, c'est pour déclarer ma sitemap pour Google j'y reviens plus tard.. (euh t'es sur; faut pas te sentir obligé..., on t'en voudra pas, promis) ou autoriser le robot Google-Image à aller fouiner partout (là je ne suis pas persuadé du truc, j'ai juste vu ça sur de nombreux robots.txt)."
Bon pour les extraterrestres il reste encore plus de 40 lignes, j'abandonne....et je vais prendre 2 aspirines+2 gurosants et petit gros whisky et surtout regarger un Derick car j'ai un peu les nerfs...JE SUPPORTE PAS DE NE RIEN COMPRENDRE!!!
C'EST COMPRIS ???
A la manière de Stéphane de simpleentrepreneur:
La rédaction de cet article a nécessité 1 mois et 11 minutes dont 30 jours pour lire jusqu'à la fin le post initial d'AYMERIC.
PS: A Sébastien Baudry de www.travelindia.fr un autre extraterrestre du web...