Datenauswertung im Archiv

Nachdem ich meine Artikel für die “Märkische Allgemeine” seit Sommer 2001 - damals wurde unser elektronisches Archiv eingeführt - einmal zusammengefasst habe, kann man mit den Daten lustige Sachen machen. Nicht nur eine Wortwolke der meistbenutzten Ausdrücke, sondern auch eine Auswertung nach Wochentagen oder Monaten.

Demnach habe ich im August am meisten geschrieben (warum wohl?) und im September (urlaubsbedingt, traditionell) am wenigsten.

Dass ich Sonntag nichts veröffentliche ist eigentlich klar, weil die MAZ an diesem Tag nicht erscheint. Aber die Unterschiede sonst?

Vielleicht bin ich ein Mittwoch-Schreiber (für die Donnerstag-Ausgabe) oder es liegt einfach daran, dass wir an diesem Tag mit unserer Beilage “MAZ-spezial” mehr Platz haben als sonst.

So eine Auswertung ist übrigens recht simpel, wenn man die Daten erstmal digital zur Verfügung hat. Die erste Grafik entsteht zum Beispiel so:

<code>
import os
import csv
from pygooglechart import StackedVerticalBarChart

sourcedir="/home/andi/Dokumente/MAZ-Archiv"
archivcsv="maz.csv"

count=0

monat_artikel= [0] * 13
for i in range(13):
    monat_artikel[i] = [0] * 12

sourceReader = csv.reader(open(sourcedir+"/"+archivcsv, 'rb'), delimiter=';', quotechar='"')

title=sourceReader.next() # in der ersten Zeile stehen die Spaltennamen

for row in sourceReader:   
    count=count+1
    jahr=int(row[0])
    monat=int(row[1])
    tag=int(row[2])
    datum=row[3]
    produkt=row[4]
    seite=row[5]
    textfile=row[6]
    pdffile=row[7]
    thumbnail=row[8]
    zeichen=int(row[9])
    headline=row[10].replace("|","")
    volltext=row[11].replace("|","")
    monat_artikel[0][monat-1]=monat_artikel[0][monat-1]+1
    monat_artikel[jahr-2000][monat-1]=monat_artikel[jahr-2000][monat-1]+1

chart = StackedVerticalBarChart(600, 480,"Artikel nach Monaten (2001-2012)",y_range=(0, 400))
chart.set_bar_width(440/12)
chart.set_colours(['76A4FB', 'ff0000'])
chart.add_data((monat_artikel[0]))
chart.set_axis_labels(Axis.LEFT, ['', 200, 400])
chart.set_axis_labels(Axis.BOTTOM, ['Jan', 'Feb','Mrz','Apr','Mai','Jun','Jul', 'Aug', 'Sep','Okt','Nov','Dez'])
chart.download('bar-artikel-nach-monaten-all.png')
</code>
Tags
#Archiv #Auswertung #Datenjournalismus
Auch interessant
Nächster Beitrag
Vorheriger Beitrag