Per Standard sind in einem WordPress Blog einfach alle möglichen Seiten für die Indizierung der Suchmaschinen freigegeben. So kommt es vor, dass die Beiträge mehrfach im Index der Suchmaschinen enthalten sind, auf der Startseite, in den Kategorien-Seiten, in den Archiv-Seiten, in den Tags-Seiten, bei den Feeds usw. Sinnvoll oder nicht, darüber scheiden sich die Geister. Wer die Indizierungen seines Blogs einfach und sauber halten möchte, und den so genannten Double Content vermeiden möchte, kann auf Hilfsmittel zurückgreifen.
Als erstes muss die Entscheidung fallen, welche Bereiche für die Indizierung freigegeben werden sollen und welche Bereiche ausgeschlossen, also mit dem noindex Meta Tag versehen werden sollen. Dann empfiehlt sich die Installation des Plugins Robots Meta. Dieses Plugin ermöglicht in seinen Standardeinstellungen zum Beispiel den Ausschluss der Indizierung von Suchergebnissen, Login und Register Seiten, sämtlichen Admin Seiten sowie der Author-, Datenbank-, Kategorie- und/oder Tag-Archive. Es beinhaltet auch weitere interessante Einstellungen zu den Archiven und den internen nofollow Bereichen. Entscheidend wichtig war für mich auch die Möglichkeit, mit diesem Plugin, das sich zusätzlich in jeden einzelnen Beitrag und Seite setzt, nach Bedarf bei diesen den noindex beziehungsweise nofollow Meta Tag zu verwenden.
Alles was bereits über die Meta Tags auf noindex gesetzt wurde, muss nicht mehr über die robots.txt ausgeschlossen werden, die ja auch nicht unbegrenzt lang werden sollte. Sie stellt eine zweite oder auch erweiterte Möglichkeit dar, die Indizierungen in den Suchmaschinen zu unterbinden. Trotz des Robots Meta Plugins empfiehlt es sich hin und wieder seine Indizierungen zu überprüfen (site:www.domain.tld) und entsprechend die Einträge in der robots.txt vorzunehmen.
Ein weiterer Punkt, der mir bezüglich doppelter Indizierungen aufgefallen ist und scheinbar von vielen WordPress Bloggern nicht beachtet wird, ist die Indizierung der einzelnen Seiten mit und ohne www vor dem Domainnamen. Eingehende Verlinkungen werden manchmal fehlerhaft auf die andere Version als die gewünschte gesetzt und schwups schon ist die entsprechende Seite zweimal im Index enthalten. Hierfür empfiehlt sie ein entsprechender Eintrag in der .htaccess Datei, der für die automatisierte Umleitung aller Seiten von domain.tld auf Seiten von www.domain.tld wie folgt aussehen könnte:
RewriteEngine on
RewriteCond %{HTTP_Host} ^domain.tld$ [NC]
RewriteRule ^(.*)$ http://www.domain.tld/$1 [L,R=301]
Abschließend möchte ich noch hinzufügen, dass eigener Double Content in den seltensten Fällen zu Abstrafungen bzw. Penalties seitens der Suchmaschinen führt. In solchen Fällen entscheidet Google beispielsweise eigenmächtig, welches die diesbezügliche “Hauptseite” ist, die restlichen Seiten werden einfach nur aus dem Index gekickt. Ein Fakt, der z.B. auch für die Entscheidung Kategorien, Tags oder beides eine Rolle spielt.
“Noindex” ist so eher ein Werkzeug für die, die die Indexierung ihrer Seiten selbst steuern möchten. Ich schließe z.B. mit dem Robots Meta Plugin grundsätzlich alle meine RSS Feeds und RSS Comments, die gesamten Admin Bereiche sowie die Archive aus, die ich nicht anbieten oder indexiert sehen möchte. Ich habe dabei aber durchaus auch einige Bereiche, die sich überschneiden können und trotzdem zur Indexierung freigegeben sind
Was aber definitiv schon zu Ranking Verschlechterungen geführt hat, ist das generelle doppelte Vorhandensein aller Seiten mit und ohne www. Die diesbezügliche Steuerung über die htaccess (siehe Beispiel oben) ist in meinen Augen eine der wichtigsten Standardeinstellungen für alle Webseiten.