Pourquoi l’unicode dans les URL me semble une mauvaise idée
(Cet article s’adresse en partie à ce site : république-numérique.fr)
Bien loin est le temps où les sites n’étaient qu’en « .com » ou « .fr » : on trouve maintenant des « .france », « .xxx », « .science », « .christmas », « .google » et plein, plein d’autres.
En plus de tout ça, il est également déjà possible d’avoir des accents dans les noms de sites. Au lieu de « republique-francaise.fr » on pourrait avoir « république-française.fr ».
Voilà qui va plaire à l’Académie Française, mais je ne suis pas sûr que ça plaise à l’américain moyen, ou l’expatrié et son clavier qwerty : si taper un accent aigu sur du qwerty sur le « e » est encore relativement simple, mettre un cédille sur le « c » l’est déjà moins. Sans compter que la plupart des gens en France n’accentuent pas leur majuscules (ce qui est pourtant obligatoire selon les règles d’orthographe), et que les kikoo de Facebook n’accentuent même plus rien du tout, ça risque d’être un beau bordel.
Après, dans les nouvelles extensions de sites web, on trouve, en plus du « .christmas » et du « .google », aussi ce genre de choses : « ..삼성 », « .дети » ou « .中信 », respectivement en coréen, en russe et en chinois, alors que je ne parle pas des extensions en hébreu, en arabe, en cinghalais, en japonais, en grec ou dans tous les autres alphabets qui existent (car pourquoi se limiter à quelques-uns ?).
Tout ça c’est bien joli et sympathique pour les 2,5+ milliards de personnes dans le monde qui n’utilisent pas l’alphabet latin à la base, mais je pense que ça risque de fragmenter un peu plus internet et les sites-web et de rendre la vie plus dure à tout le monde (pas seulement moi et mon clavier latin). Il ne faut pas oublier que les claviers avec l’alphabet latin sont plus ou moins répandus partout (ou au moins en alphabet secondaire sur les claviers non latins). Comment ça sera quand un nom de site web en cyrillique devra être écrit sur clavier kana ?
Je pense que si il n’y a pas un fallback en Ascii (sous partie très réduite de l’alphabet latin et seule utilisée in facto en informatique) quelque part, il sera impossible de s’en sortir. Pas juste pour moi qui utilise cet alphabet là à la base, mais pour tous ceux qui utilisent un Internet actuel. C’est bien beau de penser à tous le monde, humainement et techniquement, mais ça risque aussi de casser bien plus de choses que ça ne résout.
Qu’un blog local s’amuse à mettre des caractères unicode dans son site, ce n’est pas trop un problème, mais ça peut le devenir si les institutions gouvernementales s’y mettent, car ces derniers peuvent avoir plus ou moins un rayonnement international.
Donc pour en revenir à république-numérique.fr, je ne peux pas être d’accord avec eux. Il faut dissocier le contenu de la page et son URL (la façon d’y accéder). Parce que sinon, on devrait également remplacer le tiret « - » par un trait d’union « ‐ » et mettre des majuscules. D’ailleurs, pas sûr que le « .fr » dans l’expression de l’URL satisfasse aux règles d’orthographe : après tout, si l’URL doit être en vrai français, autant tout mettre en vrai français et pas s’arrêter avant le TLD.
ÉDIT : Je me fais incendier dans les commentaires.
Oui, je connais le Punnycode, pour le fallback Ascii : mais j’espère que vous rigolez quand il s’agit de transformer « .香港 » (qui se lit xiāng gǎng selon les règles de translittération déjà existante) en ceci « .xn--j6w193g » ?
Je reformule donc : il faudrait un truc simple pour convertir les noms de sites en unicode, pas un charabia mathématique que personne ne comprend sans avoir un master en mathématiques. Et si possible, transparent à l’usage.
Par exemple « republique.fr » devrait pouvoir pointer tout seul sur « république.fr », et « .テスト » devrait plutôt être pointable par « .tesuto » plutôt que par « .xn--zckzah ». au moins il y aurait une logique linguistique derrière (ce qui me semble être l’un des buts de l’unicode, non ?).
À la commande d’un NDD en « .テスト » il faudrait que soient inclus d’office le « .tesuto » et leur équivalents ailleurs (en coréen, russe, chinois, arabe…) selon les règles de translittération admises).
ÉDIT-2 voilà mon clavier virtuel pour navigateur pour taper dans une quarantaine de claviers différents en direct.
ÉDIT-3 : en plus de poser problème pour taper une URL avec un clavier d’un autre dialecte, ceci pose le problème des « faux caractères ». Par exemple, l’adresse « google.com » est le vrai, mais « gοοgle.com » n’est pas le vrai. Ce qui chance ici, ce sont les deux premiers « o », qui sont dans le second exemple la lettre « omicron » dans l’alphabet grec.
Ce genre d’astuce est utilisé pour faire du phishing : un pirate vous envoie sur une page avec une adresse modifiée qui ressemble au vrai, et donc vous ne vous doutez de rien…
ÉDIT-4 : C’est déjà arrivé : voir cet exemple. Ou ça. Ou encore ça, ou encore ça.