Crawler

Was ist ein Crawler?

Als Crawler, Webcrawler, Robot oder Spider wird ein Programm bezeichnet, welches im Internet selbstständig nach Informationen sucht, indem es Webseiten ausliest, analysiert, kategorisiert und indexiert. Dabei geht der Crawler auf seiner Suche "spinnennetzartig" vor; daher stammt auch die Bezeichnung "Spider".

Aufgrund der wiederholten, automatisierten Vorgehensweise handelt es sich bei einem Crawler um ein spezielles Bot.Crawler

Wonach sucht ein Crawler?

Eine wichtige Funktion kennen wir vom sogenannten Googlebot: Crawler werden unter anderem von Suchmaschinen eingesetzt, um ihre Suchergebnisse zu erweitern und aktuell zu halten.

Ein weiteres Einsatzgebiet für Webcrawler ist ihre Nutzung als sogenannte Harvester-Programme. In diesem Fall besteht das Ziel darin, E-Mail-Adressen zu sammeln. Um dem vermehrten Empfang von Spam-E-Mails vorzubeugen, findet man die E-Mail-Adressen auf vielen Websites in mehr oder weniger "verschlüsselter" Form, zum Beispiel als eingefügte Grafik oder indem ein (at) anstelle von @ und ein (dot) anstelle des Punktes verwendet wird. In der Folge taucht die E-Mail-Adresse nicht als Zeichenkette im Quelltext auf. Diese Maßnahme soll verhindern, dass Webcrawler die E-Mail-Adresse als solche erkennen können.

Crawler werden ferner auch zum illegalen Ausspähen von Daten eingesetzt.

Wie funktioniert ein Crawler?

Der Webcrawler durchsucht das Internet nach Websites und diese wiederum nach Inhalten sowie weiteren Weblinks. Die Informationen werden anschließend heruntergeladen und in Form einer Kopie im Cache gespeichert. Im Rahmen der Suchmaschinenpflege werden diese analysiert, nach vorgegebenen Definitionen kategorisiert und als Kopien in den Index der Suchmaschine aufgenommen. Fortan erscheinen sie dem Internetnutzer als Suchergebnisse.

Jede Suchmaschine verfügt über ihren eigenen Algorithmus für die Indexierung.

Wonach kategorisieren Webcrawler die Inhalte?

Je nach Ziel des Crawlings kommen unterschiedliche Vorgehensweisen in Betracht. Ein Focused Crawler durchsucht Webseiten hinsichtlich ihrer thematischen Relevanz. Beim Data Mining sammelt der Webcrawler öffentliche Kontaktdaten, zum Beispiel E-Mail- und Postadressen sowie Telefonnummern. Preisvergleichsportale nutzen Crawler, um das Internet speziell nach bestimmten Angeboten zu durchsuchen. Nachrichtenseiten beziehen über Webcrawler umfangreiche Informationen zu aktuellen Themen.

Inwiefern profitieren Webseitenbetreiber von einem Crawler?

Das Ziel der meisten Webseitenbetreiber besteht darin, die Besucheranzahl und den Bekanntheitsgrad ihrer Seite zu erhöhen. Hierzu spielt es eine entscheidende Rolle, dass die entsprechende Seite von Suchmaschinen gefunden wird und dort ein möglichst gutes Ranking aufweist. Ein durchdachtes Crawler-Management ist also ein Teil der SEO (Suchmaschinenoptimierung).

Wie wird eine Webseite Crawler-freundlich?

Grundsätzlich ordnen Suchmaschinen den verschiedenen Internetseiten individuelle Crawling Budgets zu. Von der Höhe dieses Budgets ist es abhängig, wann, wie lange, wie oft und wie intensiv die entsprechende Seite durchsucht wird. Da Websites mit einem hohen Beliebtheitsgrad sich für die Suchmaschine "mehr lohnen", sind Crawler dort aktiver als auf weniger bekannten Seiten.

Eine sinnvolle Menüführung und interne Verlinkungen tragen dazu bei, das Crawling Budget Deiner Seite zu erhöhen. Dies wird weiterhin durch eine möglichst große Anzahl sinnvoller Backlinks erzielt. Hierbei handelt es sich um Verlinkungen von externen Internetseiten auf Deine Website. Allerdings muss ein thematischer Zusammenhang gegeben sein, damit der Backlink zur SEO Deiner Seite beiträgt.

Wie kann ich einen Crawler beeinflussen?

Um das Potenzial der Webcrawler optimal zu nutzen, solltest Du mehrere Dinge beachten:

Als Webseitenanbieter kannst Du Crawlern bestimmte Anweisungen geben; etwa, welche Deiner Unterseiten im Suchmaschinenindex auftauchen sollen. Bereiche, deren Inhalte für den Seitenbesucher nicht von Bedeutung sind, kannst Du gezielt aussparen. Dadurch "lenkst" Du den Webcrawler zu den relevanten Bereichen und lässt ihn die Zeit, die ihm für das Auslesen deiner Seite zur Verfügung steht, besonders effektiv nutzen.

Die Steuerung erfolgt anhand der Datei robots.txt sowie über Meta-Tags. Mit Befehlen in robots.txt teilst Du den Crawlern mit, welche Deiner Seiten er auslesen darf und welche nicht. Mit Meta-Tags gibst Du an, welche Deiner Pages in den Index von Suchmaschinen aufgenommen werden sollen. Seriöse Webcrawler halten sich an das von Dir vorgegebene Protokoll.

Sensible Informationen sollten allerdings zusätzlich geschützt werden, zum Beispiel mit einem Passwort; dadurch verhinderst Du ein Ausspähen durch illegale Crawler, die sich nicht an Deine Anweisungen halten.

Häufige Fragen und Antworten

Ist ein Web Crawler eine Suchmaschine?
Ein Webcrawler (auch Spider, Searchbot oder Robot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt.
Warum sind Webcrawler für Deine erfolgreiche Homepage so wichtig?
Crawler durchsuchen das Internet und damit auch Deine Webseiten und verknüpfen die wichtigsten Schlüsselbegriffe mit der URL Deiner Website. Auf diese Indexierungen greifen wiederum Suchmaschinen bei der Generierung von Suchergebnissen zu einem bestimmten Suchbegriff (Schlüsselwort/Keyword) zurück.
Wie unterscheiden sich freundliche Crawler von schädlichen Bots?
Ein großes Ärgernis stellen Programme dar, die elektronische Daten sammeln, um diese missbräuchlich zu verwenden. Ein solcher schädigender Use besteht beispielsweise im Sammeln von E-Mail-Adressen, die anschließend mit Spam überhäuft werden.