php-resource




Archiv verlassen und diese Seite im Standarddesign anzeigen :
Liste der User-Agents der Bots


 
Quetschi
07-07-2005, 16:30 
 
Hallo,

da ich kürzlich eine Site geprogged habe, die auf Session's basiert, möchte ich nun noch für die (wichtigsten) Suchmaschinenroboter die PHPSESSID in der Url verhindern.

Ein paar Übersichtslisten a'la 'User-Agent -> SuMa' hab ich schon dazu gefunden. Nun wär es nicht schlecht wenn es eine Liste in reiner Textform (z.B. csv) gäbe, mit der man sich in regelmässigen Abständen automatisch abgleichen könnte.

Weiß jemand ne Url mit einer derartigen Liste als Inhalt?

Falls es sowas nicht gibt:
Sind bei den wichtigsten SuMa's die User-Agents-Angaben der Roboter 'stabil' oder ändern die sich die Angaben von Zeit zu Zeit?

Gruss
Quetschi

 
derHund
07-07-2005, 16:36 
 
Sind bei den wichtigsten SuMa's die User-Agents-Angaben der Roboter 'stabil' oder ändern die sich die Angaben von Zeit zu Zeit?sind stabil, afaik. wird von einem spider eine neue version rausgebracht, ändert sich der agent natürlich ...

listen findest du ja zu hauf, vorhin gesehen: http://www.gerin.de/download/spiders.txt

btw: sessions, sumas, ...

edit: die drei wichtigsten sind wohl guugle, yahoo und msn ... starte doch die session erst, wenn nötig. spider kommen doch eh selten in diese bereiche.

 
Quetschi
07-07-2005, 17:16 
 
Vielen Dank für den Link :) Die User-Agent-Angaben hier sind aber leider sehr rudimentär :(

Ich denke ich werde mich hierfür wirklich nur um die 'großen Drei' kümmern und die Agents manuell pflegen.

Original geschrieben von derHund
... starte doch die session erst, wenn nötig. spider kommen doch eh selten in diese bereiche. Bisher hatte ich Session's nur für Login-Bereiche usw. verwendet, in diesen Bereichen sperre ich Roboter sowieso aus.

Bei der Site um die es mir hier jetzt geht sind Sessions aber vom Start weg unabdingbar, da es ein ziemlich komplexes Gerüst aus verschiedenen Domains ist, die aber alle auf ein zentrales Script zurückgreifen welches dann erst aus verschiedenen Daten aus der Session heraus entscheidet welches Template geladen wird, welche Tabelle bzw. Tabellenkombinationen usw. (pro Konfiguration ca. 20 Parameter) abgefragt werden.

Für die SuMa-Indizierung kann ich daher praktisch auch ned auf die Sessions verzichten, allerdings habe ich hier vor nicht eine PHPSESSID in die Url einfliessen zu lassen, sondern einen kurzen, fixen Parameter für jede SuMa anhand dessen ich dann ne SuMa beim Spidern verfolgen und leiten kann.

 
onemorenerd
07-07-2005, 17:42 
 
Schau dich mal bei http://www.pgts.com.au/pgtsj/pgtsj0212d.html um.

 
Quetschi
07-07-2005, 17:52 
 
Yes, entspricht genau meiner Vorstellung, DANKE :rocks:

- -

Alle Zeitangaben in WEZ +2. Es ist jetzt 04:34 Uhr.