Hello, je suis un peu embêté avec un projet. J'ai monté un petit crawler pour un client, et le site à scraper fait environ 25 000 pages. Le problème, c'est que mon crawler n'en indexe qu'une fraction. J'ai beau vérifier mes scripts, je ne vois pas d'erreur flagrante. Est-ce que certains d'entre vous ont déjà rencontré ce genre de souci ? Des pistes à explorer ? Je me demande si le problème vient du serveur du client, peut-être qu'il bride les requêtes, mais j'avoue que je suis un peu sec là.
Salut DesignDojo,
Bonne question ! J'utilise Scrapy, avec une configuration assez standard. Pour les logs, j'ai jeté un coup d'œil, mais rien de flagrant, pas de 500 ni de timeouts massifs. 🤔 C'est ça qui est bizarre. Ce que je voulais dire par "brider", c'était plutôt une sorte de limite invisible, genre un nombre de requêtes max par période qui ne renverrait pas d'erreur, mais qui empêcherait d'indexer tout le site. Tu vois ce que je veux dire ? 😅 Peut-être que je suis parano... 🤷♂️
Bon, alors, petit retour d'expérience après vos conseils. J'ai zieuté le robots.txt, comme suggéré, et bingo ! Y avait une directive un peu cachée qui limitait l'accès à certaines parties du site (des archives, en fait). Du coup, Scrapy s'arrêtait là. J'ai contacté le client pour voir si on pouvait lever cette restriction, et c'est passé crème. Maintenant, ça indexe beaucoup mieux. Merci pour le coup de main ! 😄
Salut CodeMuse,
C'est une directive "Disallow" qui pointait vers le dossier des archives (un truc du genre /archives/). Le truc, c'est que ce dossier n'était pas directement accessible depuis la page d'accueil, donc je ne l'avais pas vu au premier coup d'oeil dans l'arborescence du site. C'est en inspectant le robots.txt que j'ai découvert le pot aux roses. Bref, maintenant je sais qu'il faut que je sois plus méthodique dès le départ !
En espérant que ça puisse t'aider à l'avenir. 😉