In dem 3. Teil meiner SEO-Serie möchte ich auf die Suchmaschinen allgemein eingehen. Hier geht es darum den Suchmaschinen den richtigen Weg zu weisen.

Es gibt diverse Möglichkeiten die Seiten eurer Site besser bei Google & Co bekannt zu machen und dafür zu Sorgen, dass diese besser und einheitlicher indiziert werden.


Robots Meta-Tag

Dieses Meta-Tag weist Suchroboter, Sogenannte Crawleran in bestimmter Weise mit Euren Seiten umzugehen. Habt aber immer im Hintergrund, dass sich sicherlich nicht alle Suchmaschinen an die Vorgehensweise des Robots-Tags halten und es dadurch nicht sichergestellt ist, dass z.B. eine Seite mit noindex nicht doch in irgendeiner Suchmaschine indiziert wird.

Beispiel:

Hier die Erklärung der einzelnen Werte:

  • index /noindex
    Die Suchmaschine soll die Seite in ihren Index aufnehmen, oder halt nicht. Das bedeutet, dass der Inhalt bei gesetztem index-Wert indiziert wird und über dir Suchmaschine findbar ist. Bei gesetztem noindex ist die Seite halt nicht findbar und wird auch nicht indiziert.
  • follow / nofollow
    Die Suchmaschine soll die Seite (abhängig von index/noindex) in den Index aufnehmen, soll aber dann entweder weiteren Links auf der Seite nicht folgen (nofollow), oder fleißig weiter crawlen (follow).
  • noarchive (default ist archive)
    Durch das Setzen des Wertes noarchive sagt Ihr der Suchmaschine, dass Sie die Seite nicht in ihrem internen Cache aufnehmen soll. Das bedeutet, dass die Links in der Trefferliste von z.B. Google immer aktuell sind. Bei den Seiten, welche in den Cache aufgenommen wurden seht Ihr z.B. unterhalb des Treffers einer SE-Trefferliste den zusätzlichen Link „im Cache“. Dieser ruft nicht den Content aktuell von eurer Seite ab, sondern benutzt halt den internen Cache der SE.
  • noodp
    Ich weiß gar nicht, ob dieser Wert aktuell noch Relevanz hat und ich glaube, dass sowieso nur Google in auswertet. Falls eure Seite im DMOZ (Open Directory Service) aufgeführt ist, wird von Google der dort eingestellte Beschreibungstext für die Ansicht auf der Trefferliste benutzt. Ist nun noodp gesetzt, so wird Google angewiesen diesen nicht zu benutzen, sondern das sogenannte Snippet, also einen Teil der Seite selbst.
  • nosnippet
    Auch hier kann ich nicht sicher sagen, ob es funktioniert, aber bei gesetztem nosnippet soll überhaupt kein Auszugstext der Seite in dem Treffer von Google angezeigt werden.


Revisit / revisit-after Meta-Tag

Dieses weist die Suchmaschine an eure Seite in einem von euch bestimmten Intervall wieder zu besuchen. Allerdings gehen schon seit längerem Gerüchte um, dass gerade Google diese tags eigentlich ignoriert und nach eigenem Ermessen bestimmt wann eure Seite wieder besucht wird. Da hilft eigentlich nur eine häufige und regelmäßige Aktualisierung und guter, aktueller Content.

Beispiele:



Robots.txt verwenden

Die robots.txt ist, wie der Name schon sagt eine kleine Text-Datei im Webroot eurer Site. Unabhängig von gesetzten Meta-Tags wie z.B. noindex kann man hier genau steuern,welche Dateien und Seiten nicht von Google besucht werden sollen. Allerdings ist es auch hier wieder Sache des Crawlers, ob er so freundlich ist und die robots.txt beachtet. Eine Garantie für Geheimhaltung ist sie also in keinster Weise.

Beispiel:

User-agent: *
Disallow: /impressum/
Disallow: /login.html
Disallow: /tmp

Hier die Erklärung der einzelnen Werte:

  • User-agent
    Damit könnt Ihr bestimmten Bots/Crawlern unterschiedliche Dinge mitteilen. Wildcards sind hierbei erlaubt. Wie im obigen Beispiel könnt Ihr alle Bots ansprechen indem Ihr einfach ein * setzt.
  • Disallow
    Die Seite soll nicht von Google besucht werden. Das ist sinnvoll bei z.B. Login-Seiten, Admin-Seiten, oder dem Impressum wenn Ich nicht wollt, dass man z.B. euren Namen direkt finden kann. Um eure gesamte Seite zu verbieten könnt Ihr einfach „Disallow: /“ schreiben
  • Allow
    Ist das Gegenstück zu Disallow und kann genutzt werden um Seiten explizit einzuschließen.


    Beispiel:

    User-agent: *
    Disallow: /
    Allow: /public
  • Sitemap
    Könnt Ihr verwenden um Google einen anderen Ort für eurer Siemap.xml zu sagen. Liegt sie nicht im Webroot, solltet Ihr das hier sagen.


    Beispiel:

    User-agent: *
    Sitemap: http://www.news-und-tests.de/sitemaps/sitemap.xml


Sitemap.xml nutzen und bei Google einreichen

Diese Datei beschreibt die Seite, so wie sie von den Crawlern ausgelesen werden sollen. Hier könnt Ihr Links zu Topsuchbegriffen eures Shops, zu Kategorie-Portalen oder sonstiges einfügen.

Die Datei muss in UTF-8 codiert sein und alle Werte müssen XML-Typisch Entity-Escapet werden (z.B.  & anstelle von &)

Beispiel:

 

 
 http://www.news-und-tests.de/
 2010-03-19
 daly
 0.8
 

Hier die Erklärung der einzelnen Werte:


  • Die URL der gewünschten Seite. Diese muss mit dem entsprechenden Protokoll beginne, z.B. http://. Zudem muss am Ende ein Slash stehen. Die Länge darf 2048 Zeichen nicht überschreiten.

  • Dee Content der URL wurde zuletzt geändert am im Format JJJJ-MM-TT

  • So oft habt Ihr vor die Seite zu ändern. Der Wert ist kein Garant für die Häufigkeit der Crawler-Besuche.
    (gültige Werte: always, hourly, daily, weekly, monthly, yearly, never)

  • Die Priorität der URL im Verhältnis zu den anderen von Euch angegebenen Seiten in der Sitemap.xml. Hier gibt es keinen Vergleich zu anderen Domains oder Sites. Einzig eurer eigene, auf die Domain beschränkte URL- Priorität zählt. Der Wert geht von 0.1 bis 1.0.
    !Achtung!
    Eine Sitemap.xml mit nur gleichen Prioritäts-Werten von z.B. 1.0 führt zur Abwertung bei Google.


Ggf. Sitemap-index Dateien verwenden

Da eine Sitemap.xml-Datei nur maximal 50000 Einträge enthalten sollte und nicht größer als 10 MB sein darf, ist es mitunter von Nöten mehrere Sitemap.xml Dateien anzulegen. Um dann Google zu sagen wie diese lauten legt ihr eine sitemap-index.xml Datei an.

Beispiel:



 
 http://www.news-und-tests.de/sitemap_1.xml
 2010-03-19
 
 
 http://www.news-und-tests.de/sitemap_2.xml
 2010-03-19