Du code javascript sur une capture d’écran.

Du code javascript sur une capture d’écran.
De plus en plus de sites sont en AJAX même pour les pages les plus simples. Comprendre : la page envoyée par le serveur au navigateur est vide, et ne contient qu’un script. C’est le script qui va récupérer — dans un second temps — les données de l’article : titre, contenu, date… Ceci ne va pas s’arranger dans l’avenir car c’est comme ça que sont faites les applicables web (PWA).

Sauf que cela pose un problème technique dans certains cas. Pour ma part, dans le cas où je partage un lien sur mon site. Je le fais par un raccourci dans la barre d’adresse. Mon serveur récupère alors la page dont l’URL se trouve dans la barre d’adresse… sauf qu’il n’interprète pas les scripts, lui.
Du coup, il détecte un titre absent, ou vide et ne me préremplit pas le champ du titre. Je suis obligé de le faire moi-même à la main.

C’est le cas par exemple de Twitter. Cherchez dans le code source(Ctrl+U) sur une page d’un tweet seul la balise « title » : elle est vide ou absente. Pourtant la page affiche un titre : c’est qu’il a été ajouté dynamiquement par un script.

Comment contourner ça ?

Ben dites à votre serveur de s’identifier comme Google Bot.

Les sites et blogs veulent que Google détecte leur site y compris le titre. Donc s’ils voient un « Google Bot », ils lui envoient une page simplifiée, sans script à la con.

Si vous utilisez Wget ou cURL, ajoutez une option pour spécifier l’user-agent utilisé et mettez ça :

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)


C’est ce que je fais désormais dans mon lecteur RSS et donc mon outil pour partager des liens et parser les pages HTML. Pour le moment ça n’a jamais aussi bien marché.

En plus de ça, certains sites tronquent leurs articles pour vous forcer à vous abonner pour lire la suite (paywall). Par contre, ces mêmes sites distribuent l’intégralité de l’article au Google Bot.

Donc si vous vous dites à votre navigateur de s’identifier comme Google Bot, vous pouvez avoir accès à l’article entier. Sur une page simplifiée, plus légère, sans pub, ni scripts.


Outre l’astuce d’accéder à un contenu, c’est quand-même absolument grandiose d’en être arrivé là.

D’un côté une partie des sites mettent des captchas partout pour savoir si vous êtes bien un humain et avoir accès aux fonctionnalités, de l’autre, les pages qu’ils servent aux robots indexeurs sont 100 fois mieux que celles servies aux humains.

Ça montre une chose : ces sites-là n’en ont rien à foutre de leurs visiteurs. Ils vendent de l’espace publicitaire, et attirent les visiteurs dont ils pourrissent la navigation tant qu’ils n’ont pas payé (en euros, en données personnelles, avec leur âme ou en sacrifiant un chaton) avec un titre putaclic qui devra remonter convenablement dans les moteurs de recherche. C’est ça leur business. En attendant, ce sont bien les internautes qui sont emmerdés, ou dans mon cas, les codeurs qui veulent récupérer le titre d’un tweet dans un script.



Mise à jour : J’avais déjà écrit tout ce qui se trouve ci-dessus quand Seb poste ça : https://sebsauvage.net/links/?Dj7B4Q
C’est un cas pratique de ce qui est exposé ci-dessus : certaines [toutes petites] entreprises (restau, typiquement) passent exclusivement par FB pour publier leurs tarifs, prestations, horaires ou coordonnées. Google peut accéder à tout ça (d’où les horaires affichés directement dans les résultats de recherche), mais pas l’internaute qui doit s’inscrire et vendre son âme pour les voir et voir le reste des informations.


image d’en-tête de Luca Bravo