Die PDF-Sackgasse
Oder: Wie man den Nutzer garantiert nicht auf seiner Webseite behält.
Es handelt sich um ein Problem, wie es verbreiteter kaum sein könnte. Ein Problem, das die Menschen bewegt (oder eben nicht), ein Problem, das die Menschen in die Abgründe der Verzweiflung treibt, ein Problem, das Benutzer auch von Webseiten mit dem besten Inhalt garantiert fernhält: Die PDF-Sackgasse.
Von Hühnern und Menschen
Stellen wir uns die folgende Situation vor: In meinem Freundeskreis bin ich als liebevoller Hobby-Hühnerhalter bekannt. Aus diesem Grund erzählte man mir von einer Studie mit dem Namen „Chicken: Chicken Chicken“, welche ich unbedingt ansehen müsse. Ich suche also bei Google danach und erhalte folgende Ergebnisse:
Nachdem ich das Prachtshuhn auf der rechten Seite bestaunt habe, mache ich mich auf die Suche nach dem von meinen Freunden empfohlenen Werk und werde bereits an zweiter Stelle fündig – das Video auf Platz eins überspringe ich, das ist sicherlich nicht so relevant. Ich öffne das PDF und staune. Meine Erwartungen werden übertroffen, ich freue mich, drucke aus und freue mich erneut.
Nach dem zehnten Durchlesen würde ich nun jedoch gerne mehr über den Autoren erfahren, ich möchte seine weiteren Publikationen bestaunen und ihm meine Dankbarkeit mitteilen, ihm vielleicht sogar einen Kleinstbetrag spenden. Doch ich habe hier ein Problem: Ich komme nicht aus diesem PDF heraus, ich habe keine einfache Möglichkeit, auf die übergeordnete Seite zu gelangen. Ich stecke in der PDF-Sackgasse fest.
Mit gutem Inhalt viele Benutzer verlieren
Was hier beschrieben wurde ist ein verbreitetes Phänomen, das besonders in den Bereichen Content-Marketing und SEO oft unterschätzt wird. Mit viel Aufwand werden Inhalte zusammengetragen, aufgearbeitet, gelayoutet und in ein Dokument gepackt. Es wird dann jedoch mit viel guter Absicht mit einem „Download PDF“-Link auf der Webseite oder einem Blog eingebunden und ist ab sofort abrufbar – für Benutzer und Suchmaschinen.
Letztere indexieren nun selbstverständlich das Dokument und verlinken wie in der beschriebenen Situation direkt darauf. Leser, welche über den Download-Link auf der Webseite das PDF öffnen, geniessen den Komfort, immerhin mit dem Zurück-Button des Browser wieder auf die vorherige Seite zu gelangen. Andere Besucher, welche organisch über Google oder z.B. via einem Link aus einem Email direkt auf der Datei gelandet sind, haben im Normalfall keine Chance, einfach auf die Website der Ersteller zu gelangen. Die Folge: Das wunderbare Content-Marketing hat beträchtlich weniger Rückwirkung auf den Ersteller als eigentlich verdient. Und in den Statistiken zeigen sich die Früchte der Arbeit leider auch nicht, da PDF-Downloads nicht von Haus aus in Google Analytics getrackt werden. Obwohl der User eigentlich gute Inhalte gefunden hat, wird somit viel Potential verspielt.
Der Ausweg aus der Sackgasse
Damit ein PDF nicht immer einer Sackgasse gleichkommt, ist es wichtig, dem Benutzer mindestens einen möglichen Weg zu weiteren Informationen aufzuzeigen. Idealerweise endet er jedoch gar nicht erst auf einem PDF ohne Rückkehrmöglichkeit. Unsere Tipps helfen, PDF-Sackgassen zu vermeiden und dem Benutzer seinen Weg durch das Internet zu erleichtern:
- Brauche ich wirklich ein PDF?
Oft wird das Format PDF mit „hoher Qualität“ gleichgesetzt: Wenn es sogar in einem PDF ist, muss es ja gut sein. Falsch. Wenn ein Inhalt auch als normaler Artikel existieren kann und für den Benutzer angenehmen zu konsumieren ist, braucht es kein PDF. - Kann der Inhalt aufgeteilt werden?
Ein umfassendes PDF ist zwar in sich schlüssig, die einzelnen Kapitel sind jedoch auch alleinstehend verständlich und bringen dem Lesenden einen Mehrwert? Indem man den Inhalt auf mehrere Seiten oder Blogposts aufteilt und jeweils zum vollständigen PDF linkt, lässt sich eine grössere Masse an Benutzern gezielter ansprechen und dazu auch noch vor der PDF-Sackgasse abfangen. - Welche Wege gibt es aus dem PDF heraus?
Der Nutzer landet also begründet auf einem dieser PDFs. Nun soll er aber auch daraus wieder weiter kommen. Die einfache Lösung: Klickbare Links! Nur zu oft werden URLs des Urhebers, anderer Quellen oder weiteren Informationen nicht verlinkt. Aber Benutzer sind faul, sie wollen klicken statt Links in die Adresszeile des Browsers zu kopieren. - Will ich meine PDFs überhaupt von einer Suchmaschine finden lassen?
Vielleicht ist die Antwort hier ganz einfach nein. Den kleinen Umweg via die eigene Website sollen Benutzer auf sich nehmen. Mittels einfachen Einstellungen kann man Google verbieten, PDF-Dateien zu indexieren. - Wie könnte ich so ein PDF denn nun richtig einbinden?
Idealerweise ist die Datei wie oben beschrieben nicht direkt über eine Suchmaschine auffindbar. Gleichzeitig wird die Datei jedoch auf der entsprechenden Seite eingebunden und ist somit nicht nur verlinkt, sondern direkt lesbar. Mögliche Lösungen dazu gibt es kostenlos und sind einfach einzubauen (beispielsweise von Google oder Mozilla). Der Link zum Download der Datei kann selbstverständlich zusätzlich angeboten werden.
Die PDF-Sackgasse ist also gar nichts so ausweglos, wie sie auf den ersten Blick scheint. Auch ich habe nach weiterem Suchen eine Version von „Chicken: Chicken Chicken“ gefunden, die mit einem Link versehen war. Der führt zum vorher übersprungenen Video, in dem der Autor höchstpersönlich seine Studie präsentiert und nun mit einem dankbaren Kommentar von mir belohnt wurde. Chicken. Chicken Chicken!
Du fandest diesen Artikel spannend und hast bereits selbst nach “Chicken: Chicken Chicken” gegoogelt? Dann TWEETE darüber!
Announcing the first Webrepublic White Paper: Agile Digital Strategy Development
We are proud to announce that we have published our first white paper. Starting from today you can download our insights into how to develop agile digital strategies here.
Since we started the Webrepublic Strategies, the management consulting department of the Webrepublic, we have been working with the Agile Digital Strategy approach. We have transferred the methodologies from agile software development and agile campaign management to digital strategy consulting.
As there is almost no literature about Agile Digital Strategy, Can Olcer, Roger Tschallener and I decided to write a white paper which aims at filling the gap by providing a comprehensive overview, explaining the approach, giving examples and introducing the most important methodologies and tools. It delivers insights for executives and digital strategy managers of small to big companies, but also for online marketers and marketing agencies who want to dig deeper into the digital strategy world.
Read the executive summary and download the complete paper here:
We hope this paper is of value to you and guides you on your path to a more agile digital strategy. And let us know if you liked the paper by dropping us an email or tweet.
Checking a webpage’s status (beyond 404)

Image courtesy: CC BY 松林L
Imagine there’s a new Chinese restaurant in town. It serves a big variety of Chinese dishes. The restaurant employs two waiters, Zhāng and Lǐ. One of them, Zhāng, speaks English very well, while Lǐ only understands a few words. If you ask Zhāng for a dish that the restaurant does not offer, he will explain to you that he cannot bring you that dish and will offer some alternatives. Lǐ on the other hand takes a shortcut: Each time he does not understand what the customer wants to eat, he just brings him wonton noodles.
Challenge
You have never eaten Chinese food before and have no idea what Chinese dishes look and taste like.You go to the new restaurant and order one of the dishes. How can you tell whether you got the right dish, or whether the waiter just brought you any dish because he did not understand you?
Yes, this story is a little absurd. Nevertheless, the whole situation is not that far-fetched. Imagine you have a list of URLs and want to know whether they are still “alive”. The simplest approach would be to request the page behind each URL and to look at the HTTP status code. Just like Zhāng, most web servers will notify you with the HTTP status code “404″ that you requested a page which does not exist anymore.
Unfortunately, the HTTP status code is not always reliable. Sometimes an HTTP status code in the range of 3xx is returned when a non-existing page is requested. The class of 3xx status codes denotes redirection to another page, just like the way Lǐ serves you his “fallback menu” when he doesn’t understand you. This policy may make sense for some websites, but not when used in advertisement. Imagine that you’re looking for the specific product Xyz and you’re redirected to a generic webpage about the product series X. A sensible choice for normal, organic traffic, but bad when you click on an ad. In this case the marketing team should be notified to update the relevant ad. Most likely, the website structure was changed and they should update the ad’s URL.
Solution
Faced with this dilemma, you come up with a solution. You go to the restaurant and place an order that you are sure they won’t be able to fulfill, for example pasta al pomodoro. Of course a Chinese restaurant does not serve Italian food, therefore Lǐ will bring you wonton noodles instead. You take a picture of the dish, eat it and leave. The next time you’re at the restaurant and order something unknown to you, you can simply compare the served dish with the picture you took before. If they both have a reasonable level of similarity, you can be pretty sure that Lǐ just served you his “fallback dish”.
Translated to our URL status checking, we send a request to every site and ask for the pages that we are interested in. We get the responses and save them for later. Then we ask for a page of which we are sure that it doesn’t exist, for example by appending a UUID to an existing URL. We see how the website responds to these requests. Finally, we compare the answers between the two sets. If some of the pages that we are interested in look suspiciously similar to the pages that do not exist, then we have an important indicator for an invalid page that conventional methods (just looking at the HTTP status code) cannot detect.
In order to be efficient, the system does not care about many of the formalities. Logos, images and other unneeded parts of the website are ignored. We focus on what matters and try to optimize according to that. We are also polite enough to state that our requests are made by a robot, so people should not worry about seeing extra “suspicious” traffic on their webserver (unless they also worry about Google discovering their website).
The Future
In software, there is always room for improvement. At the moment we are simply using Python’s difflib to calculate the similarity of two pages. In the future, we could use more advanced methods like calculating the Levenshtein distance or using the Cosine similarity to compare different webpages. Furthermore, the downloader script is currently a monolithic program that uses thread pools to download the different pages. This could be made more reliable and scalable by creating isolated download jobs and using distributed task queues like Celery.
If you have remaining questions or know of other methods to discover dead links, please leave a comment below!
(Credits: This article and method is based on the work of Dimitris Leventeas who left us to finish his Master’s Thesis at Google. We wish you much success in your future career!)
Penguin 2.0: Outlook on this year’s summer of SEO

A few days ago, Matt Cutts – head of Google’s webspam team - answered some questions in his newest video about what webmasters and search engine optimizers (SEOs) should expect in the next few months and what his team is working on right now. We put together the 4 most important issues he addressed to give you a short overview of what to expect from the webspam departement this summer.
Penguin Update 2.0
After the first Penguin update in April 2012, Cutts had announced the «the next generation of Penguin.» This update – internally called Penguin 2.0 – can be expected to be launched within the next few weeks. It will dive even deeper, trying to find specific black-hat webspam methods designed primarily to boost Google rankings. It should be interesting to see which websites will profit and which will lose from the announced algorithm update. This as the last Penguin release already had a large impact, especially on database-driven websites. Cutts explained further, that Google is in the early days of working on a more ambitious system of link analysis, which will allow them to better understand links in general.
Advertorials
Google will increase their effort in fighting websites that use advertorials to artificially inflate their own link profile by passing on PageRank, as this violates Google’s webmaster guidelines. As a consequence, selling links on sites that pass PageRank can lead to a penalty by Google. As Cutts wrote earlier: «Please be wary if someone approaches you and wants to pay you for links or “advertorial” pages on your site that pass PageRank. Selling links (or entire advertorial pages with embedded links) that pass PageRank violates our quality guidelines, and Google does take action on such violations.»
Hacked Sites
Google is further improving their help for webmasters in various ways, especially for hacked sites. First of all, they are aiming to detect hacked sites more efficiently with the rollout of a new version of hacked sites detection. Furthermore, Google wants to improve their communication with the affected webmasters with a one stop shop, a single spot where webmasters can get all the information they need to clean up their infected sites.
Domain Clusters in SERPs
Google is also working on clustered results of the same domain in their search engine result pages (SERPs). The number of clusters of the same domain should decrease for first page search results, but probably increase for second page results. This should actually bring more diversity on first page search results.
Bottom line: Quality will matter even more!
Matt Cutts’ own conclusion says it all regarding these expected changes: «If you’re doing high quality content, whenever you do SEO, this shouldn’t be a big surprise, you shouldn’t have to worry about a lot of different changes. If you’ve been hanging out on a lot of black-hat forums and trading different types of spamming-package-tips, then it might be a more eventful summer for you.»
It will definitely be interesting to observe, if the announced updates also will have a bigger impact on non .com properties. There is still an on-going discussion about how and even if the first Penguin Update affected websites in Switzerland, Germany and Austria at all or if these changes merely focused on .com URLs. One way or the other, even if these changes didn’t affect Swiss websites much, they clearly show the direction in which Google is heading – and sooner or later they will definitely have a global impact. This week’s announcement just exemplifies how Google will continue to work against black-hat SEO tactics and is shortening the time between their quality updates. As this happens, focusing on high-quality content will matter even more and we need to increasingly view SEO as an inherent part of a broad approach to online marketing in general, not just a technical task.
SEOcruise 2013 – Wir sitzen alle im gleichen Boot!

Es gibt Online Marketing Konferenzen wie Sand am Meer – dieses Jahr nun erstmals auch eine darauf: Die SEOcruise (organisiert von Ayudo) lockte ca. 200 gut gelaunte Teilnehmer auf die MS Color Magic von Kiel nach Oslo und zurück. Neben den Sessions tagsüber im Konferenzzentrum des Schiffs, wurde auch ein knackiges Rahmenprogramm für ungezwungenes Networking geboten.
Die Session von Karl Kratz war das Highlight des ersten Tages – und das nicht nur, weil er gratis Snickers verteilte. Er zeigte, wie man in wenigen Schritten über die blosse Implementation von Social-Media-Buttons hinaus Content individuell anpassen kann. Dies geht natürlich nur, wenn man die Social-Media-Buttons und die mitgelieferten Daten richtig nutzt. Man muss eigene Datenbanken erstellen, über die dann Inhalte gesteuert werden können. Wenn ein User bereits auf Facebook eingeloggt ist und bisher zehn Mal nur über diesen Kanal Inhalte der Seite geteilt hat, dann ist es technisch z.B. möglich diesem User die anderen Social-Media-Buttons erst gar nicht anzuzeigen. Stattdessen könnte man ihn nämlich für seine Treue belohnen und einen Bonus-Code für den nächsten Einkauf anzeigen.
Ebenfalls sehr interessant war Björn Tantaus Session zum AuthorRank. Google braucht Signale um guten Content zu beurteilen. Früher handelte es sich dabei vor allem um Links (siehe PageRank). Der AuthorRank ist als Rankingfaktor schlicht schwieriger zu manipulieren als Backlinks und daher für Google ein wertvolles Kriterium. Links kaufen ist einfach, AuthorRank aufbauen nicht: Um Google+ wird man auch in Zukunft in der Suchmaschinenoptimierung nicht herum kommen.
Insgesamt befassten sich viele Sessions mit Themen, die eine eher User zentrierte Herangehensweise vorschlugen und sich dabei auch klassischen Marketing-Grundsätzen bedienten. Norman Nielsen (Head of SEO bei Zalando) gab den Anwesenden zudem Einblicke in die Abläufe und Strukturen seines Teams. Grossen Wert wird beim Online-Versandhändler auf die Aus- und Weiterbildung, sowie die interne Kommunikation gelegt. Besonders bei internationalen Projekten wichtig sei, dass man Muttersprachler an Bord habe oder anlerne, um den Eigenheiten der unterschiedlichen Märkte gewachsen zu sein. “Andere Länder, andere SEOs”, so Nielsen.
Es war ein einmaliger Event unter aussergewöhnlichen Bedingungen. Das Einzige was wirklich fehlte war ein (durchgehend) funktionierendes WLAN, auf das bei einer Online Marketing Konferenz sonst nicht verzichtet werden kann. (weiterlesen …)




