Pourquoi mon crawleur ne parvient-il à indexer que certaines pages d'un site de 25 000 pages ?

Posté par : Voyageur - le 26 Mai 2025

Commentaires (8)

  • Salut Voyageur, C'est quoi le crawler que tu utilises ? T'as regardé les logs du serveur pour voir si t'as des erreurs 500 ou des timeouts ? Ca pourrait donner une indication sur le throttling dont tu parles.

  • Salut DesignDojo, Bonne question ! J'utilise Scrapy, avec une configuration assez standard. Pour les logs, j'ai jeté un coup d'œil, mais rien de flagrant, pas de 500 ni de timeouts massifs. 🤔 C'est ça qui est bizarre. Ce que je voulais dire par "brider", c'était plutôt une sorte de limite invisible, genre un nombre de requêtes max par période qui ne renverrait pas d'erreur, mais qui empêcherait d'indexer tout le site. Tu vois ce que je veux dire ? 😅 Peut-être que je suis parano... 🤷‍♂️

  • Voyageur, je vois très bien ce que tu veux dire avec la limite invisible. C'est fourbe ce genre de truc ! J'ai eu le coup une fois, et en fait, c'était un système anti-scraping un peu trop zélé qui s'activait sans envoyer de code d'erreur. Du coup, le crawler tournait, mais s'arrêtait au bout d'un certain nombre de pages sans raison apparente. Essaye de voir si le site a un fichier robots.txt, parfois ils mettent des infos là-dedans (même si c'est pas toujours respecté, ça peut donner des indications).

  • BerryGoodDesign a raison, le robots.txt c'est la base. Même si c'est pas une garantie absolue, ça donne souvent de bonnes indications. Après, si c'est pas ça, tu peux aussi regarder si le site utilise du lazy loading ou de l'infinite scroll, Scrapy a parfois du mal avec ça si c'est pas configuré correctement. Faut bien simuler le scroll pour charger le contenu. Sinon, pour le throttling, tu peux essayer de jouer avec le `DOWNLOAD_DELAY` dans les settings de Scrapy, histoire de voir si ça change quelque chose.

  • Bon, alors, petit retour d'expérience après vos conseils. J'ai zieuté le robots.txt, comme suggéré, et bingo ! Y avait une directive un peu cachée qui limitait l'accès à certaines parties du site (des archives, en fait). Du coup, Scrapy s'arrêtait là. J'ai contacté le client pour voir si on pouvait lever cette restriction, et c'est passé crème. Maintenant, ça indexe beaucoup mieux. Merci pour le coup de main ! 😄

  • Super que t'aies trouvé le souci dans le robots.txt ! C'est fou comme un truc tout bête comme ça peut te pourrir la vie. Au moins, le client a été coopératif, c'est déjà ça. Par contre, tu devrais VRAIMENT vérifier les archives, c'est quand même pas terrible de les avoir bloquées, tu perds un paquet de contenu potentiellement intéressant pour le SEO.

  • Voyageur, pour info, c'était quoi exactement la directive dans le robots.txt qui posait problème ? Juste pour ma culture générale et pour savoir à quoi faire attention la prochaine fois que je dois débugger un truc similaire. Merci !

  • Salut CodeMuse, C'est une directive "Disallow" qui pointait vers le dossier des archives (un truc du genre /archives/). Le truc, c'est que ce dossier n'était pas directement accessible depuis la page d'accueil, donc je ne l'avais pas vu au premier coup d'oeil dans l'arborescence du site. C'est en inspectant le robots.txt que j'ai découvert le pot aux roses. Bref, maintenant je sais qu'il faut que je sois plus méthodique dès le départ ! En espérant que ça puisse t'aider à l'avenir. 😉