Spider Script

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Spider Script

    Hallo Gemeinde,

    ich bin auf der Suche nach einem Script um eine Kundenseite zu crawlen. Diese hat mehr als 100 000 Seiten im Google Index. Die Seite hat jedoch viel mehr - jedoch werden diese per robots.txt ausgeschlossen.

    Disallow /*/is-bin/

    Ich hab schon mit PHPCrawl_070 experimentiert. Allerdings bricht er bei mir bei ca. 2000 Seiten ab ohne Fehlermeldung und beachtet leider die oben gepostete Regel aus der Robots nicht.

    Was ich nun bräuchte ist ein Spider Script das mit also unter Beachtung der robots.txt die einzelne Webseite spidert.

    Genial wäre es auch wenn das Script folgendes kann:

    1. Beachten der Robots.txt
    2. Links mit rel=nofollow werden nicht verfolgt
    3. Seiten mit Meta Angabe noindex werden ausgelassen

    Ausgabe URLs ähnlich einer Sitemap

    Set Time Limit ist bei mir = 0
    Memory Limit auf 2GB

    Die meisten Script die ich so gefunden habe, halten sich leider nicht an die tobots.txt - z.B. Snoopy

    Vielleicht kennt jemand ein gutes Script dass man vielleicht noch anpassen kann.

    Gruß Tom
    Spambot Falle
    Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.
Lädt...
X