Eigentlich möchte man als Betreiber einer Webseite gerne dass diese von seriösen Seiten verlinkt wird und auch in allen Suchmaschinen am besten für jeden denkbaren Suchbegriff auf der ersten Seite der Suchergebnisse auftauchen. Allerdings gibt es auch Dienste im Internet bei denen man die Webseite nicht sehen und am liebsten entfernen möchte. Warum dies bei der Wayback Machine von archive.org der Fall sein könnte und was zu tun ist, zeige ich in diesem Artikel.
Was ist die Wayback Machine?
Falls man diesen Dienst nicht kennt: Bei der Wayback Machine von archive.org handelt es sich um einen Dienst der relevante Webseiten „archiviert“. Hierbei wird bei Änderungen an der Seite zu willkürlich wirkenden Zeitpunkten ein „Snapshot“ erstellt, welcher in einer Kalenderansicht auswählbar ist. Dies umfasst auch nicht unbedingt alle Unterseiten und macht auf mich einen recht willkürlichen Eindruck, hängt aber bestimmt in irgendeiner Art und Weise mit der Popularität der Seite zusammen:
Zwar habe ich die Wayback Machine schon genutzt um von den Snapshots einer Webseite, von der wir leider kein vollständiges Backup aus den ersten Tagen mehr haben, Sicherungen zur „Erinnerung an die guten alten Zeiten“ zu erstellen und war eigentlich ganz froh dort diese Snapshots zu finden, aber allen anderen Internetnutzern soll das trotzdem nicht zugänglich bleiben.
Warum sollte man seine Webseite da entfernen wollen?
Der ein oder andere mag sich fragen, was daran so schlimm sein mag wenn halt eine Version von der eigenen Webseite von vor 10 Jahren noch zugänglich ist. Gerade am Anfang der Tätigkeit im Internet mag man sich darüber nicht allzu viele Gedanken machen. Im Laufe der Zeit können es meiner Meinung nach vor allen Dingen folgende Gründe sein, die dagegen sprechen alte Versionen dort bestehen zu lassen:
- peinliche Designfehler (auch für damalige Verhältnisse) oder glitzernde 1990er Seitenlayouts
- schlechter Content, den man am liebsten selber vergessen möchte
- integrierte Werbung / Partnerprogramme, für die damals aber heute nichts mehr eingenommen wird
- Content der damals kostenlos war, aber heute exklusiv, z. B. in einem Mitgliederbereich oder als eBook, angeboten wird
- Content der aus rechtlichen Gründen nicht mehr verfügbar sein darf, z. B. wenn man aus Unwissenheit geschützte Bilder oder Texte verwendet hat und das dann irgendwann natürlich wieder entfernt hat oder wenn diese nur für einen begrenzten Zeitraum bezahlt wurden oder man sogar schon mal dafür abgemahnt worden ist
- eine Testseite, die anfangs dort zu sehen war
- ein Wechsel der Ausrichtung der Webseite, z. B. wenn der Domainname einen völlig anderen Content zuließ (bspw. beim Kauf einer schon mal genutzten Domain)
- die Presse nutzt gerne mal Links zur Wayback Machine wenn die Originalquelle gelöscht worden ist
- die Seite ist in der Wayback Machine oftmals sowieso nur halb brauchbar, da viele Bilder oder externe Elemente eh nicht mehr geladen werden
- auch kritische politische Äußerungen könnten ein Grund sein
Copyright?
Die Betreiber von archive.org verstoßen durch das Kopieren der Inhalte meiner Meinung nach defintiv gegen geltendes Urheberrecht. Auch wenn der Dienst natürlich nett gemeint ist, so stellt das ungefragte Kopieren meiner Meinung nach eigentlich schon einen Verstoß dar. Zwar wird die Seite zwar so wie sie ist kopiert und nicht versucht den Content unter eigenem Namen zu benutzen, aber trotzdem ist dies so eigentlich nicht die feine Art ohne eine „vorherige“ Zustimmung.
Wie entfernen lassen?
Das „Entfernen-lassen“ geht wohl leider nicht einfach durch ein formloses Schreiben an archive.org. Stattdessen muss man einen sogenannten „DCMA-Takedown“ fordern. Hierbei handelt es sich um eine offizielle Anfrage zur Entfernung des zu Unrecht „kopierten“ Contents laut dem sogenannten DCMA („Digital Millenium Copyright Act“, Urheberrechtsgesetz in den USA). Hierfür kann man, wenn man dem Anbieter traut, einen Generator benutzen, der einem den passenden Anfragtext zusammenwürfelt:
https://dmca.ysoup.org/ (Keine Gewähr für wirkliche Datensicherheit!)
Hierzu muss man unter „URL of the infringing website or page“ die Domain „archive.org“ eintragen.
Danach unter „Generate your DMCA Takedown Notice“ die persönlichen Daten und die betroffenen Webseiten eintragen und das Schreiben generieren lassen.
Dann kann man den Text in eine Mail kopieren und darauf bezugnehmend einen kurzen Einleitungssatz vorschieben und das ganze an die unter https://archive.org/about/contact.php genannte Mail-Adresse schicken.
Wenn alles geklappt hat, dann sieht man nach ein paar Tagen bei der erneuten Suche nach der Domain bei der Wayback Machine folgende Meldung:
Probleme
Wenn man nicht durchgehend der Besitzer der Domain gewesen ist, dann bekommt man evtl. ein Schreiben, das sich wie folgt liest:
Thank you for contacting us.
Public WHOIS lookup information seems to indicate that the registration for the current iteration of the baumpruefung.de domain/website was changed/updated on xxxx/xx/xx, while the archives of domain.de that you’ve referenced are dated from xxxx/xx/xx through xxxx/xx/xx.
Please note that we don’t exclude archives from any past owner(s) of a domain/website at the request of a present/future owner.
May we please politely request that you let us know about the specific time period(s) in which you’ve owned/authored domain.de?
Providing a proof of ownership verifying that will greatly assist with our process. This could be in the form of invoices/receipts for domain.de dated in accordance with the archives you’ve requested exclusion of, as an example.
Doing so will allow us to more accurately assist with your exclusion request, while simultaneously helping to preserve any historical content of other owners/authors.
Mit anderen Worten: Man kann angeblich nur den Inhalt entfernen lassen, für dessen Crawling-Zeitraum man einen Nachweis über den Besitz der Domain erbringen kann. Meiner Meinung nach ist dies fragwürdig, da ich als aktueller Besitzer einer Domain, auch wenn diese gekauft ist, auch der Eigentümer der Rechte an den schon dort befindlichen Inhalten sein müsste, zumindest wenn nichts anderes vereinbart wird.
Da die betroffene Domain durchgehend im Besitz meiner Familie gewesen ist, allerdings den Provider gewechselt hat etc., stellt man sich da nun quer. Wir haben für die entsprechenden Zeitabschnitte Rechnungen (übrigens in einem solchen Fall gut wenn man diese doch länger als 10 Jahre aufbewahrt!) hingeschickt und warten ab. Leider kann es laut vielen Erfahrungsberichten schon länger dauern bis einem da mal jemand antwortet.
Wenn man also eine schon mal projektierte Domain kauft, sollte man so etwas im Vorfeld überprüfen und am besten den Vorbesitzer auch das Takedown-Schreiben und Rechnungskopien an archive.org schicken lassen!!!
Zukünftige Snapshot-Erstellung unterbinden
Für neue Webprojekte und auch für zukünftige Crawl-Versuche bestehender Projekte, kann man die Waybackmachine per .htaccess-Anpassung versuchen auszusperren:
1 2 3 4 5 6 |
# activate RewriteRules RewriteEngine On # cancel crawling by waybackmachine, archive.org RewriteCond %{HTTP_USER_AGENT} (ia_archiver) [NC] RewriteRule ^(.*)$ - [F,L] |
Man könnte das ganze auch in einen solchen If-Block einfügen, damit es keine Probleme gibt, falls das benötigte Rewrite-Modul nicht geladen ist:
1 2 3 |
<IfModule mod_rewrite.c> ... </IfModule> |
Da die meisten meiner Webprojekte ohne dieses Rewrite-Modul aber ohnehin nicht (mehr) funktionieren, verzichte ich seit einiger Zeit auf diese Prüfung.
Irgendwelche Anpassungen in der robtos.txt bringen übrigens heutzutage kaum noch etwas und werden von den Suchmaschinen und solchen Diensten wie archive.org mittlerweile ignoriert.
Fazit
Ob man das wirklich machen sollte oder nicht, hängt vermutlich stark davon ab, wie wichtig einem selber eine aufgeräumte Webpräsenz ist. Sinn machen kann es auf jeden Fall wenn man mal kritischen oder eigentlich urheberrechtlich geschützten Content verwendet hat und das auf jeden Fall überall weg muss.
Moin,
Moin,
Ich will und muss meine Inhalten bei archive.org löschen lassen. Meine Internetseite hatte ich schon mithilfe der im “.htaccess” Order enthaltenen Eintragungen:
deny,allow
Deny from all
blockieren lassen, was auch wunderbar funktioniert. Alle Zugriffe auf die Seite werden blockiert. Wenn ich aber nun wie vorgeschlagen die Textdatei: robots.txt mit den notwendigen Einträgen auf der ´Hauptseite im Verzeichnis hochlade, wird natürlich auch der Zugriff auf eben diese txt-datei mit dem Hinweis “vorbidden” verhindert. Nun will ich aber die Internetseite nicht wieder freigeben, weil ja dann auch alle Inhalte wieder verfügbar wären. Was kann ich also machen, um den Anforderungen von archive.org zu genügen.
Moin Herbert,
du möchtest, dass auch die Waybackmachine deine robots.txt liest? Verstehe ich das richtig?
In diesem Fall könntest du die entsprechende htaccess-Regel um eine Ausnahme für diese Datei erweitern. Das kann ich grad aus dem Kopf allerdings nicht 😉
In diesem Artikel habe ich vorgeschlagen die robots.txt gar nicht anzupassen, weshalb ich grad nicht genau weiß was du erreichen möchtest.
Grundsätzlich solltest du auch mal hier reinschauen: https://blog.devilatwork.de/impressum-und-datenschutzerklaerung-vor-abmahnanwaelten-verstecken/
Da habe ich einen Absatz zur robots.txt und wieso ich die nicht (mehr) nutze um Seiten „zu verstecken“ bzw. warum das sogar kontraproduktiv ist.
Viele Grüße
Tobias