Googlebot – Mit was für User Agents ist dieser Webcrawler im Netz unterweg

Hin und wieder mag es für Webmaster notwendig werden, mit dem Googlebot zu kommunizieren. So ist das z.B. auch bei meinem Shop der Fall, wo verhindert werden soll, dass dem Googlebot Session IDs ausgegeben werden, deren Indexierung zu Double Content und dadurch auch zu Ranking Verschlechterungen führt. Lange Zeit war es möglich, Google von der Indexierung einzelner Webseiten mittels der robots.txt fernzuhalten. Irgendwann in diesem Jahr hat sich aber Google entschlossen, den Inhalten der robots.txt nicht mehr ganz so viel Beachtung zu schenken und sobald ein interner oder externer Link vorhanden ist, den entsprechenden Inhalt der robots.txt zu ignorieren.

Über diese Änderung des Verhaltens der robots.txt werde ich in einem gesonderten Beitrag demnächst berichten, denn dieses Verhalten von Google hat auch die ein oder andere Auswirkung auf unsere WordPress Blogs.

Nun ist aber mein Shop System nicht ganz doof und beinhaltet eine Einstellungsmöglichkeit „Spider Sessions vermeiden“. Doch trotz dieser Einstellung frisst Google Sessions IDs ohne Ende in seinen Index. Da kann doch was nicht stimmen, woher hat Google die, wenn sie ja gar nicht ausgeliefert werden?

Diese Problematik beschäftigt mich nun schon seit Wochen und mein besonderer Dank geht an dieser Stelle an Thorsten, der mir in den letzten Wochen diesbezüglich immer wieder mit Rat und Tat zur Seite gestanden hat.

Um Google, wie im Beispiel meines Shops, keine Session IDs auszuliefern, muss festgelegt werden, welchem User Agent keine Session IDs ausgeliefert werden. Bis dato war natürlich der Googlebot in diesem Bereich enthalten. Auch Tests, wie der Googlebot die Seiten sieht, ergaben, dass Googlebot keine Session IDs ausgeliefert bekommt. Wenn er sie auf diesem Wege also nicht erhält, dann muss er sie wo anders her haben. Also lag die Vermutung nahe, dass der Googlebot auch mit anderen User Agents auf den Seiten surft, User Agents, die in meiner Vermeidungsdatei für die Session ID Ausgabe nicht enthalten sind.

Auf der Suche nach User Agents, mit denen der Googlebot Webseiten crawlt wurde ich an diversen Stellen im Netz, wie auch in meiner eigenen Webseitenstatistik sowie zuletzt in den Webmaster Tools fündig. So bin ich bis dato auf folgende User Agents gestoßen:

  • Googlebot (zuständig für den Webindex und Google News)
  • Googlebot-Mobile (zuständig für den mobilen Index)
  • Googlebot-Image (zuständig für den Bilder Index)
  • Mediapartners-Google (zuständig für den Adsense Content)
  • Adsbot-Google (zuständig für den Adwords Content)
  • FeedFetcher-Google (zuständig für die Feeds)

Kennt jemand noch weitere Google Webcrawler User Agents?

Ob sich mein Problem mit den Session ID Indexierung durch die Hinzunahme der bis dato fehlenden Google Webcrawler User Agents gelöst ist, wird sich aber erst in den nächsten Wochen zeigen. Abwarten und Tee trinken heißt hier die Devise.

Die Suche nach den diversen Google Webcrawler User Agents war gar nicht so einfach und aus diesem Grund denke ich, dass eine solch gesammelte Liste durchaus mal für den ein oder anderen hilfreich sein kann. In der Regel kommen die diversen User Agents auch teilweise noch mit Versionsnummern um die Ecke, wie z.B. Googlebot/2.1 oder Googlebot-Image/1.0. Eigentlich müsste es für die Kommunikation ausreichen, diese ohne Versionierung anzusprechen, wie z.B. wenn man über die robots.txt dem Google-Image Bot verbieten möchte die Webseite zu crawlen
User-agent: Googlebot-Image
Disallow: /

Da Google nun aber die meisten Einträge der robots.txt zu ignorieren scheint, müssen wir uns aber für diese Kommunikation andere Wege einfallen lassen. Dazu in Kürze mehr.

Artikel vom: