Wayback Machine

Die Wayback Machine ermöglicht alte Versionen von Webseiten einzusehen

Die Wayback Machine ist ein Internetportal, auf dem alte Versionen von Websites verfügbar sind. Website-Daten werden in regelmäßigen Abständen gespeichert, sodass unterschiedliche Versionen und Zustände von Internetseiten aus der ganzen Welt gespeichert werden. The Wayback Machine ist ein in den USA ansässiger Internet-Archive-Dienst und eine gemeinnützige Organisation. The Wayback Machine ist Teil der Web Archives, einer gleichnamigen gemeinnützigen Organisation, die digitale Güter langfristig archivieren will.

Wayback Machine

Diese „Zeitmaschine“ ist in vielerlei Hinsicht ein nützliches und unterhaltsames Werkzeug. In den letzten Jahren ist der Dienst jedoch zunehmend in der Kritik, da seine Archivierung je nach Land gegen geltendes Urheberrecht verstößt. Dementsprechend erteilte die Library of Congress im September 2006 den Internetarchiven sechs Ausnahmen vom US-amerikanischen Digital Millennium Copyright Act. Aus diesem Grund kann der Content online aufbewahrt werden.

Ziele der Backtrack-Maschine

Das in San Francisco ansässige Internet Archive mit Gründer Brewster Calais hat es sich zur Aufgabe gemacht, unter anderem über die Wayback Machine einen öffentlichen Dienst anzubieten, damit Historiker, Forscher und Wissenschaftler Zugang zum digitalen Archiv haben. Das Unternehmen wurde 1996 in San Francisco gegründet und nutzt die Datenbank des Internetunternehmens Alexa. Das Internetarchiv enthält nicht nur archivierte Websites, sondern auch Text, Bewegtbilder, Audio und Software, also alle Inhalte alter Websites.

Die zu speichernden Seiten werden über den Alexa Webservice ausgewählt. Alle dort hinterlegten URLs werden regelmäßig aufgerufen und archiviert. Eine noch nicht gespeicherte Webressource kann auch manuell aufgezeichnet werden, indem man nach einer Seite sucht und die Aufzeichnung anschließend bestätigt (der Inhalt einer Datei, z. B. eines JPG-Bildes, wird ohne vorherige Anfrage gespeichert). Die Gesamtzahl betrug im November 2009 etwa 150 Milliarden Seiten und ist bis Oktober 2016 auf über 273 Milliarden Seiten angewachsen.

Die Zeitreisemaschine ist nicht allen für solche Tricks nützlich. Wer sehen möchte, wie Nachrichtenportale auf Barack Obamas und Trumps Wahl reagiert haben, kann dies über das Internet Archive tun. Seiten, die in dieser Zeit entfernt oder aktualisiert wurden, können ebenso in ihrem vorherigen Zustand betrachtet werden. Dies kann ein vom Autor gelöschter Twitter-Beitrag oder die Originalbeschreibung eines Produkts sein.

Google speichert genauso Kopien vieler Internetseiten, allerdings hauptsächlich von englischsprachigen Portalen. Außerdem sind die Kopien oft weniger als 24 Stunden alt. Für die ZDF-Homepage würden die Nutzer beispielsweise „cache: zdf.de“ in die Google-Suchmaske eingeben. Für Suchanfragen bietet Google einen Zugriff auf archivierte Seiten: Wenn man etwas googelt, findet man neben vielen Suchergebnissen einen Pfeil, der ein Menü auf alte Seiten öffnet.

SEO und die Bedeutung für das Marketing

Die Wayback Machine kann für die SEO enorm nützlich sein. Wenn auf der Website ein Problem mit der Google-Suche aufgetreten ist, ist es oft nicht einfach, den Grund herauszufinden. Mit der Wayback Machine können Fachleute den aktuellen und älteren Code einer Webseite vergleichen und so eventuelle Schwachstellen identifizieren und bearbeiten. Mit der Wayback Machine kannst Du auch nach alten Links suchen und diese an neue URLs anpassen (z. B. durch Wechsel des CMS). Defekte Links können auf die gleiche Weise gefunden werden, weil viele fehlerhafte Links das Ranking einer Webseite senken können. Ebenso ist die Wayback Machine in ihrer Validierungsfunktion nicht zu unterschätzen. Wenn ein Webmaster den Content einer Website kopiert, kann ein anderer auf diese Weise nachweisen, dass der entsprechende Inhalt bereits zu einem früheren Zeitpunkt existierte.

Bei der Nutzung des Angebots wird die jeweilige Website, deren alter Inhalt gesucht werden soll, in das Suchfeld der zu suchenden Website eingegeben. Die Ergebnisse werden nach Jahren aufgeschlüsselt als HTML in einem Format ähnlich der vorherigen Seite angezeigt. Zugleich kann es eine Weile dauern, alles herunterzuladen, und es ist nicht ungewöhnlich, dass einige alte Inhalte vollständig aus dem Netzwerk entfernt werden. Natürlich kann dieser Zugriff auf den „Internetspeicher“ nützlich sein: In alten Inhalten kann man nicht nur nach Informationen suchen, sondern diese auch wiederverwenden oder bei Bedarf vielleicht sogar neu entdecken.

Bei einem neuen Website-Design können Elemente auf diese Weise praktisch geprüft werden. In Notfällen kann die Wayback Machine auch ein Lebensretter sein, wenn beispielsweise bei Urheberrechtsproblemen etc. die Originalität eigener Inhalte nachgewiesen werden muss. Dies wird in einschlägigen Gerichtsverfahren in Deutschland regelmäßig als Beweismittel akzeptiert. Der SEO-Bereich profitiert von nützlichen Vergleichswerten für die Suchmaschinenoptimierung, wie beispielsweise Webseiten mit einem bestimmten Suchmaschinen-Targeting im Laufe der Zeit angenommen und genutzt wurden. Fast so vielfältig wie das archivierte Internet selbst sind die Chancen einer sinnvollen Nutzung dieses historisch angesehenen und ständig überwachten Dienstes.

Wofür wird die Wayback-Maschine verwendet?

Vor allem Wissenschaftler der Informationstechnologie, der Bibliotheks- und Sozialwissenschaften profitieren bei ihrer Forschung von den Archivdaten der Wayback Machine. Über die Wayback Machine wurden unzählige wissenschaftliche Artikel geschrieben. Wissenschaftler können beispielsweise die Relevanz der Website-Entwicklung für das Geschäftswachstum analysieren. Zugleich ist die Wayback Machine für Journalisten auf der ganzen Welt nützlich, wenn sie Inhalte von Websites recherchieren und alte Nachrichtenartikel und Berichte online aufarbeiten. So wurden beispielsweise in der Vergangenheit falsche Aussagen von Politikern aufgedeckt. Redakteure von Wikipedia verwenden die Wayback Machine, um Quellen zu überprüfen.

Die Archiv-Websites der Wayback Machine haben dazu beigetragen, mehrere Fälle vor Gericht aufzuklären. Insbesondere im Patentrecht können Zeitstempel aus dem Internetarchiv verwendet werden, um den Veröffentlichungszeitpunkt einer Webseite zu verfolgen. Ab November 2019 können Benutzer nur noch fünf Anfragen pro Minute stellen. Wie bereits erwähnt, ist die Wayback Machine lediglich ein Teil der digitalen Bibliothek einer gemeinnützigen Organisation. Das Internetarchiv stellt auch andere, nicht urheberrechtlich geschützte Daten der Öffentlichkeit zur Verfügung. Das Archiv enthält beispielsweise alte Bücher und Dokumente. Alte Inhalte von Websites einschließlich verwendeter Texte, Hyperlinks und URLs sowie Medien wie Fotos und Videos werden von dieser Organisation öffentlich gesammelt.

Dieses Archiv kann mit der sogenannten „Wayback-Machine“ unter http://web.archive.org durchsucht werden. Alternativ steht das Archiv zumindest für Google Chrome als Browser-Erweiterung zur Verfügung. Der Nachteil von Googles Cache ist, dass er Webinhalte nur für einige Wochen speichert. Sobald Google den Cache aktualisiert, werden die zuvor archivierten Daten automatisch gelöscht. Ein weiterer Nachteil ist, dass dort nur einzelne Seiten gespeichert werden und nicht wie bei der Wayback Machine ganze Webseiten. Klickt ein Benutzer auf einen Link auf einer Seite, die im Cache angezeigt wird, wird ihm nicht die Version der Seite beim letzten Speichern veranschaulicht, sondern die aktuelle Version.

Kritik an der Wayback-Maschine

Das Internet Archive und die Wayback Machine sind in den letzten Jahren ständig in die Kritik geraten. Diese Missbilligung konzentrierte sich auf das Urheberrecht. Die Wayback Machine verwendet ein Opt-Out-Verfahren für das Content-Crawling. Das bedeutet, dass alle Websites indiziert werden können. Webseitenbetreiber, die dies für ihre Webseiten nicht wünschen, müssen die Löschung aus dem Archiv beantragen. Dies stellt eine Verletzung des Urheberrechts dar, insbesondere des deutschen Rechts. Die Archivierung ist eine Vervielfältigungsart, die nach deutschem Recht nur dem Urheber gehört. Website-Betreiber können versuchen, sich zu schützen, indem sie eine robots.txt-Datei einrichten, allerdings kündigten Wayback Machine-Betreiber 2017 an, dass Crawler den robots.txt-Einstellungen immer weniger Aufmerksamkeit schenken würden.

Das Archiv steht auch aufgrund der wachsenden Debatte um Datenschutz im Internet in der Kritik. Wenn beispielsweise der Inhalt einer Website aus rechtlichen Gründen entfernt wird, kann der Zugriff über die Wayback Machine dennoch möglich sein. Zudem kritisieren Nutzer des Webarchivs, dass die Indexierung unregelmäßig und teilweise unvollständig ist. Das Fehlen von Mediendateien kann beispielsweise dazu führen, dass die entsprechende Seite überhaupt nicht verfügbar ist.

Ein weiteres Problem ist das Ändern der URL, insbesondere der Unterseiten. Wenn Du ältere Versionen einer Unterseite mit einer geänderten URL anzeigen möchtest, solltest Du wissen, welche URL die Seite zuvor hatte. Um die Dokumente und Webseiten von der Wayback-Machine zu entfernen oder um zu verhindern, dass eine Seite archiviert wird, fügen einige Nutzer das File „Robots.txt“ hinzu. Diese Maßnahme kannst Du auch zu einem späteren Zeitpunkt durchführen.

So archivierst Du eine Website

Nutzer können von der Wayback-Machine eine Seite archivieren lassen, falls diese im Library noch nicht existiert. Um eine bestimmte Seite unverändert zu archivieren, besuchen Anwender die Homepage von archive.org und fügen den Link in das Textfeld „Diese Seite jetzt speichern“ ein. Zugleich gibt es auch eine andere Möglichkeit, arcivce.org zum Archivieren einer Website zu verwenden. Dies kann mit einem Bookmarklet erreicht werden. Verwende ein JavaScript-Code als Speicherort für ein neues Lesezeichen/einen neuen Favoriten in dem Browser. Sie haben also einen Link erstellt und können ihn sofort zur Archivierung an die Machine senden.

Die angezeigten Seiten zeigen nur den Zeitpunkt der Archivierung, daher spiegelt dies in keiner Weise die Seitenaktualisierungsrate wider. Obwohl eine Seite einen ganzen Monat lang einmal täglich aktualisiert wurde, kann die Wayback-Machine sie nur wenige Male archiviert haben. Zudem archiviert die Wayback-Machine nicht alle bestehenden Websites. Das Projekt fügt dem Archiv weder Chat- oder E-Mail-Websites hinzu, noch darf es Websites enthalten, die die Wayback-Machine ausdrücklich blockiert.

Fazit

Die Wayback Machine ist ein interessanter Archiv-Webdienst. Von Zeit zu Zeit wird der Inhalt von Webseiten mit einem Bot aufgezeichnet oder wenn beispielsweise die Site-Besucher die Seitenadresse zur Korrektur manuell bearbeiten. So können die Nutzer sehen, wie diese oder jene Seite vorher aussah, auch wenn sie nicht mehr existiert. Der Code älterer Site-Versionen kann mit der aktuellen Version verglichen werden, um Schwachstellen zu identifizieren. Auch im Falle eines Bußgeldes durch Google können mögliche Fehlerquellen agnosziert werden. Beim Linkmanagement kann das Archiv Webseitenbetreibern und SEO-Profis helfen, defekte oder tote Links zu finden. Eine große Anzahl fehlerhafter Links kann sich negativ auf das Google-Ranking der Website auswirken. Bei Duplicate Content kann mit der Wayback-Machine nachgewiesen werden, dass bestimmte Inhalte bereits zu einem früheren Zeitpunkt existierten.

Die Wayback Machine ist für Benutzer ein nützliches Werkzeug, wenn es darum geht, herauszufinden, wie eine Webadresse zu einem gewissen Datum in der Vergangenheit aussah. Für den Bereich Internet Marketing bietet die bereits erwähnte Online-Bibliothek des Internet-Archivs nützliche Möglichkeiten in Bezug auf die Suchmaschinenoptimierung. Hierbei ist zum Beispiel das Auffinden von verlorenen und defekten Links erwähnenswert. Grundsätzlich können wir sagen, dass die Wayback Machine einen großen Unterschied beim Optimieren des Google-Rankings machen kann.

Aufgrund der Möglichkeit, Webinhalte wie Webseiten zu speichern, war die Wayback Machine bezüglich Datenschutz und Urheberrecht in der Kritik. Daher ist es möglich, dass das Archiv Daten von Internetseiten enthält, die aus rechtlichen Gründen gelöscht werden mussten. Einmal archiviert, können die Inhalte jedoch kontinuierlich in der Online-Bibliothek eingesehen werden. Ein weiterer Kritikpunkt ist, dass Webinhalte unregelmäßig und teilweise unvollständig indexiert werden. Wenn die Mediendateien nicht im Archiv enthalten sind, ist die entsprechende Seite möglicherweise nicht mehr verfügbar. Der Besuch im Internetarchiv lohnt sich auf jeden Fall. Lehne Dich zurück und entdecke mit der Wayback Machine neue Seiten des alten Internets.