Visualisierungen wissenschaftlicher Daten boomen. Sie werden eingesetzt, um riesige Datenmengen überhaupt überblicken zu können, z.B. indem Beziehungen zwischen Akteuren als Netzwerk visualisiert werden. Dann wird plötzlich sichtbar, welche Akteure besonders eng verbandelt sind und wer besonders einflussreich ist.
Solche „visuellen Analysemethoden“ sind ein großer Gewinn für die Digital Humanities. Insbesondere auch für die textorientierten Digital Humanities, die Korpuslinguistik und ähnliche Disziplinen. Gleichzeitig werfen diese Methoden eine Reihe von kritischen Fragen auf, die ich in Form von drei provokativen Thesen kurz antippen möchte:
- Visuelle Analysemethoden folgen utilitaristischen und positivistischen wissenschaftlichen Denkstilen, die nur bedingt mit den Geisteswissenschaften kompatibel sind.
- Die Geisteswissenschaften unterschätzen die Bedeutung der programmiertechnischen und algorithmischen Grundlagen der verwendeten visuellen Analysemethoden.
- Visuelle Analysetools für die Digital Humanities laufen Gefahr, traditionellen Interpretationsmethoden nachzueifern statt die Chancen des datengeleiteten Paradigmas zu nutzen.
In einem gleichnamigen Beitrag habe ich diese Thesen unlängst für die Zeitschrift „Rechtsgeschichte“ 24/2016 ein klein wenig ausführlicher dargelegt (erscheint demnächst). Hier eine Kürzestfassung.
Zur ersten These: Die Forschungsagenda der „Visual Analytics“, in moderner Form erstmal 2005 von Thomas/Cook in „Illuminating the Path“ dargelegt, ist eine Reaktion auf die Terroranschläge von 9/11. Es sollen „advanced information technologies to support the homeland security mission“ (Thomas/Cook 2005: i) entwickelt werden. Auch einige Jahre später klingt das noch ähnlich: Das Ziel visueller Analysemethoden ist „identifying a plot or threat that is hinted at, but not clearly communicated, by a small subset of documents in the collection“ (Görg/Liu/Stasko 2014).
Abseits von Geheimdiensten sind natürlich wirtschaftliche Interessen forschungsleitend: Die Daten enthalten interessante Informationen, die sich monetarisieren lassen. Es geht also darum, das Monster oder aber den Schatz zu finden.
Dieses Ziel ist legitim. Als Geisteswissenschaftler glaube ich allerdings nicht an Monster und Schätze. Oder richtiger: Nicht an DAS Monster und DEN Schatz. Und ich glaube, ich bin nicht alleine: Seien es Paradigmen wie Poststrukturalismus, Dekonstruktivismus, Diskursanalyse, Kulturanalyse, Gender Studies, Systemtheorie und weitere mehr: Nach diesen gibt es in den Daten, Quellen oder Artefakten kein Schatz (und auch kein Monster), das einfach da ist und nur gefunden werden muss. Eher sieht jede Forscherin und jeder Forscher andere Schätze und Monster, je nach Fokus, wissenschaftlicher Sozialisation, disziplinärem Denkstil und Erkenntnisinteresse.
Wenn ein (Visualisierungs-)Tool, das DAS Monster finden kann, in den Humanities verwendet wird, wird es zu einem anderen Instrument. DAS Monster ist dann womöglich nicht mehr interessant; das Instrument soll nicht dem utilitaristischen Topos folgend ein „effektives Analysetool“ sein, um den „Informationsfluss zu zähmen“. Stattdessen ist es vielleicht eher dann „nützlich“ (besser: „anschlussfähig“), wenn das Instrument reiche Nahrung für die Deutung bietet, etwa im Sinne einer „dichten Beschreibung“ (Geertz 1987).
Ich glaube deshalb, dass visuelle Analyseinstrumente für die Humanities von Grund auf anders entwickelt werden müssen – und dass wir als Humanists das selber machen müssen, oder zumindest uns sehr genau mit den technischen (und damit auch theoretischen) Fundamenten der Visual Analytics auseinandersetzen müssen.
Zur zweiten These: Visuelle Analysemethoden nutzen Algorithmen, um Daten nach bestimmten Prinzipien in ein anderes Zeichensystem, nämlich ein grafisches, überführen zu können. Der Algorithmus ist in einer bestimmten Programmiersprache implementiert. Macht es einen Unterschied, ob dafür die Programmiersprache C oder Javascript eingesetzt worden ist?
Ich habe im letzten Blogeintrag bereits über den Zusammenhang von Programmiersprachen und Denkstilen und über Coding Cultures geschrieben. Deshalb fasse ich mir hier kurz: Programmieren ist eine zutiefst kulturell geprägte Tätigkeit (Coleman 2012, Manovich 2014, Ford 2015). Mit der Wahl einer Programmiersprache und einer Programmierumgebung schreibt man sich in eine Programmierkultur ein, die von bestimmten Idealen und Topoi geprägt ist. Eine Javascript-Bibliothek ist Ergebnis und fördert gleichzeitig einer bestimmten Programmierkultur (Open Source, freie Distribution, Experiment, Copy and Paste, Remix), die auch wissenschaftliches Arbeiten verändert. Die Hürden, als technischer Banause eine bestimmte Datenvisualisierung auf die eigenen Daten anzuwenden und weiter zu entwickeln ist deutlich niedriger als noch vor ein paar Jahren.
Das bedeutet aber auch, dass es für mich als Analyst relevant ist, in welcher Programmiersprache das Tool, das ich verwende, programmiert ist, da mir das auch zeigt, in welche Coding Culture es eingebettet ist. (Dass ich mir auch im Klaren über den Algorithmus sein muss, ist klar und wurde in den Digital Humanities schon intensiv diskutiert.)
Zur dritten These: In den Visual Analytics gibt es ein „Mantra“, das ein „gutes“ Werkzeug beschreibt: “Overview first, zoom and filter, then details-on-demand” (Shneiderman 1996). Die Visualisierung soll also sowohl den Überblick über die Daten, als auch den Fokus auf das einzelne Datum erlauben. Bei der Arbeit mit Textdaten wird dies oft so interpretiert, dass mit dem Analyseinstrument letztlich jederzeit auf das einzelne Textdokument zugegriffen werden können muss.
So plausibel diese Forderung auf den ersten Blick ist: Sie huldigt einem wissenschaftlichen Gestus, der nach wie vor dem Einzeltext huldigt und in der quantitativen Datenanalyse ein Mittel sieht, diese Aufgabe, das Lesen von Texten, schneller erledigen zu können. Interessant an solchen Analysen ist jedoch weniger das Lesen der Texte, sondern in den Daten ein emergentes Phänomen zu finden, das nicht einfach die Summe seiner Einzelteile ist. Das geht, indem die Einheit des Textes aufgebrochen wird.
Ein mit statistischen Methoden erstelltes Kollokationsprofil eines Wortes ist ein solches Phänomen: Es fasst das statistisch überzufällige Kovorkommen von Wörtern in großen Textkorpora so zusammen, dass daraus ein Bild entsteht, wie das Wort in den Daten normalerweise verwendet wird (Evert 2009). In weiteren Abstraktionsschritten können die Kollokationsprofile maschinell nach Ähnlichkeit gruppiert werden, um semantische Felder (Keibel/Belica 2007) zu berechnen oder Lexempaare zu finden, die in gleichen semantischen Relationen zueinander stehen (etwa nach Mikolov u. a. 2013). Der Einzelbeleg ist dabei unbedeutend – er kann dem emergenten Profil sogar widersprechen. Interessant ist die zusammenfassende Darstellung, die genug ungenau ist, um das Wesentliche vom Unwesentlichen zu trennen.
Es mag ein verschärftes Problem in den Philologien sein, sich nicht vom Einzeltext lösen zu können. Im Data-Mining, das wirtschaftlichen Interessen folgt, ist das Interesse am Einzeldatum wohl kaum präsent.
Klar ist aber auch, dass es verheerend wäre, verlören die Humanities ihr Interesse an qualitativer Lektüre. Quantitative, visuelle Analysemethoden jedoch sind dann interessant, wenn sie nicht dazu bemüht werden, alte Fragestellungen zu beantworten (wo sie oft scheitern), sondern neue Fragen behandeln zu können.
Literatur
Coleman, E. Gabriella (2012): Coding Freedom: The Ethics and Aesthetics of Hacking, Princeton University Press, http://gabriellacoleman.org/Coleman-Coding-Freedom.pdf.
Evert, Stefan (2009): „58. Corpora and collocations“, in: Lüdeling, Anke und Merja Kytö (Hrsg.): Corpus Linguistics, Bd. 2, Handbücher zur Sprach- und Kommunikationswissenschaft 29, hg. von. Hugo Steger und Herbert Ernst Wiegand, Berlin, New York: Mouton de Gruyter, S. 1212–1248.
Ford, Paul (2015): „What Is Code? If You Don’t Know, You Need to Read This“, Businessweek, http://www.bloomberg.com/whatiscode/.
Geertz, Clifford (1987): „Dichte Beschreibung. Bemerkungen zu einer deutenden Theorie von Kultur“, Dichte Beschreibung. Beiträge zum Verstehen kultureller Systeme, stw 696, Frankfurt am Main: Suhrkamp, S. 7–43.
Görg, Carsten, Zhicheng Liu und John Stasko (2014): „Reflections on the evolution of the Jigsaw visual analytics system“, Information Visualization 13/4, S. 336–345.
Keibel, Holger und Cyril Belica (2007): „CCDB: A Corpus-Linguistic Research and Development Workbench“. Proceedings of the 4th Corpus Linguistics conference, Birmingham, http://corpora.ids-mannheim.de/cl2007-134.pdf.
Manovich, Lev (2014): „Software is the Message“, Journal of Visual Culture 13/1, S. 79–81.
Mikolov, Tomas u. a. (2013): „Efficient Estimation of Word Representations in Vector Space“, arXiv:1301.3781 [cs], http://arxiv.org/abs/1301.3781.
Shneiderman, Ben (1996): „The Eyes Have It: A Task by Data Type Taxonomy for Information Visualizations“, http://dl.acm.org/citation.cfm?id=832277.834354.
Thomas, James J. und Kristin A. Cook (Hrsg.) (2005): Illuminating the Path: The Research and Development Agenda for Visual Analytics, National Visualization and Analytics Ctr., http://vis.pnnl.gov/pdf/RD_Agenda_VisualAnalytics.pdf.