====================
== Andreas Streim ==
====================
I am a digital resident and this is my ~

Wenn Journalisten Python statt Artikel schreiben

@brandenbot @GuardianTagBot Bot Journalismus Pyhton Skript Twitter

Ich bin seit zwölf Jahren hauptberuflich Journalist, fast ausschließlich bei einer Tageszeitung in der Print-Redaktion. Seit geschätzten 25 Jahren bin ich aber auch Hobby-Programmierer. Basic, Pascal, C, Java, Python - was sich eben gerade eignet oder es zur jeweiligen Zeit auf dem jeweiligen System überhaupt gab. Und seit inzwischen auch einigen Jahren blogge ich, twittere ich, treibe ich mich an den digitalen Orten rum, die heute unter “Social Media” zusammengefasst werden.

Insofern verwundert es kaum, dass ich mit großem Interesse verfolge, was der “Guardian” so treibt. Wie Printprodukt und digitale Welt verwoben werden, wie im Netz experimentiert wird - mit offenen Schnittstellen zu den eigenen Artikeln, Datenvisualisierung oder zuletzt mit dem @GuardianTagBot auf Twitter.

Der @GuardianTagBot beantwortet an ihn gerichete Fragen mit Artikeln aus dem Online-Angebot des “Guardian”. Wenn man also twittert “@GuardianTagBot How is the situation in Bangkok” dann bekommt man per Twitter eine Antwort, die einen Link auf eine Seite enthält, auf der der TagBot relevante Suchergebnisse zusammengefasst hat. (Das @GuardianTagBot in der eigenen Nachricht ist nötig, damit sich der kleine digitale Helfer überhaupt angesprochen fühlt.)

Im Prinzip nutzt der TagBot nur die Suchfunktion auf der “Guardian”-Seite und die interne Verschlagwortung der Texte. Und er versucht aus umganssprachlich gestellten Fragen die relevanten Suchbegriffe herauszufiltern.

Einem Journalisten mit ein paar Programmierkenntnissen stellt sich da die Frage: Kann man das nicht auch machen?

Man kann. Der @brandenbot beantwortet deutschsprachige Fragen, vorzugsweise mit Bezug zum Bundesland Brandenburg, unter Rückgriff auf die Online-Ausgabe der größten Brandenburger Tageszeitung, der “Märkischen Allgemeinen” (die nicht zufällig mein Arbeitgeber ist, aber der @brandenbot ist dennoch ein reines Freizeit-Projekt).

Hinter dem @brandenbot verbirgt sich ein kleines Pyhton-Skript von etwa 200 Zeilen, das eigentlich nur folgendes tut:

  • auf Twitter horchen, ob eine Frage an ihn gestellt wird

  • aus der Frage die relevanten Suchworte identifizieren

  • eine Suchabfrage starten und die komplette Rückmelde-Seite auslesen

  • den Seiteninhalt auswerten, bestimmte Suchergebnisse (wie dpa-Tagesvorschauen) verwerfen, doppelte Einträge ausfiltern und das Ergebnis neu zusammensetzen

  • weil pro Seite nur 20 Ergebnisse ausgegeben werden, gleich noch - sofern vorhanden - die zweite Ergebnisseite auswerten

  • eine neue HTML-Seite in einer für Mobilgeräte lesbaren Form erzeugen, die neben kurzen Anrissen den Link auf den Volltext bei der “Märkischen Allgemeinen” enthält, und auf einen Server hochladen

  • per Twitter den Fragesteller über den Link zur Ergebnisseite informieren

Nach ca. einem Tag Arbeit kann der @brandenbot Fragen beantworten wie

@brandenbot Wann ist Richfest im Potsdamer Landtag?

@brandenbot Wie haben FC Bayern München und Nürnberg gespielt?

oder

@brandenbot Gibt es Wölfe in Brandenburg?

Die ersten Ergebnisse sind in diesen Beispielen bereits aussagekräftig. Da der @brandenbot nicht auf Schlagworte o.ä. zurückgreifen kann, sondern sich auf eine Volltextsuche stützt, wird bei einer Frage nach “Merkel” auch ein Text weit oben angezeigt, der einen Fußballschiedsrichter namens “Merkel” enthält, neben sehr vielen Treffern zur Bundeskanzlerin.

Man muss den @brandenbot übrigens nicht mit vollständigen Sätzen füttern. Gerne beantwortet er auch klassische Suchanfragen wie “@brandenbot Dienstwagen Brandenburg Platzeck”.

Probieren Sie den @brandenbot doch einfach mal aus und stellen Sie ihm eine Frage (und schreiben Sie mir Ihre Meinung in die Kommentare hier) - aber vergessen Sie nicht, dass es sich nur um eine Spielerei handelt um zu zeigen, mit wie wenig Aufwand solche Aufgaben eigentlich zu lösen sind.

Update 4.11.2011:

Der @brandenbot beantwortet jetzt auch Mails, die an brandenbot [ät] streim.de gerichtet sind. Die Frage muss in der Betreffzeile stehen, zum Beispiel “Was ist mit dem Referendum in Griechenland?”. Der Text der Mail kann leer sein, er wird ignoriert.

Der @brandenbot schickt dann an binnen 3 bis 5 Minuten eine Antwort an die Email-Adresse, von der die Frage kommt.

Previous Post Next Post