Diskussion:Datenschwemme (BD2015)

Aus Philo Wiki
Version vom 3. Dezember 2015, 11:04 Uhr von Euphon (Diskussion | Beiträge) (Kommentar zum Einschub)
Wechseln zu:Navigation, Suche

ad: Chris Anderson:

Im Text von Chris Anderson wird erklärt, dass die schiere Menge der Daten einen anderen Zugang zur Datenverarbeitung verlangt, da in Bezug auf Big Data klar geworden ist, dass die Datenmengen nicht mehr zu einem umfassenden Ganzen zusammengefasst werden können, das in seiner Gänze überschaubar wäre. Eine Folgerung wird rasch vorgenommen: “It forces us to view data mathematically first and establish a context for it later.” Wenn man die Datenflut nicht überblicken kann, ist es also das Beste, einfach weiter Daten zu sammeln, denn irgendwann wird sich schon von selbst etwas daraus ergeben. Denn die Daten sprechen für sich selbst.

Der Ausgangsthese ist meiner Meinung nach zuzustimmen; die Datenmengen werden unüberschaubar. Allerdings wäre eine alternative Folgerung naheliegender: Je mehr Daten gesammelt werden, desto unüberschaubarer wird das Ganze. Und das betrifft die Input- ebenso wie die Prozess- und die Output-Phase.

Mit “Input” sind diejenigen gemeint, die die Daten generieren: Menschen und Artefakte, die in welcher Weise auch immer tätig sind. Je mehr Daten erhoben werden, desto schwieriger wird es für den Datenproduzenten zu überblicken, wie und auf welche Weise Daten gesammelt werden. Das macht die Regelung dieser Vorgänge schwierig. Je mehr Datenerhebung vorgenommen wird, desto komplizierter werden die Regelungen, die diese Erhebung betreffen und die garantieren, dass der einzelne Betroffene damit konform geht oder gut in den Erhebungsprozess eingebunden ist. Je mehr Datenerhebung, desto mehr “privacy agreements”. Nun ist, man nehme etwa Walter Lippmann und seine Argumentation in The Phantom Public; es nicht möglich, dass jeder zu jeder Zeit alles weiß. Es ist zu viel verlangt, wenn vorausgesetzt wird, dass sich User über die hinzuaddierten Übereinkünfte ausreichend im Klaren sind. Je mehr Faktoren daran beteiligt sind, desto unübersichtlicher und zeitintensiver wird es, einen Überblick zu behalten, welche Daten wie erhoben werden und was damit passiert. Dass in dem Text von Chris Anderson davon nicht die Rede war, erzeugt den Eindruck, als werde die Meinung vertreten, Daten seien einfach da. Dass dies nicht der Fall ist, weil Daten erst erzeugt werden müssen, ist der erste Hinweis, dass die Daten nicht für sich selbst sprechen; sie werden durch ihre Erzeuger formuliert. In welcher Weise diese Formgebung stattfindet ist eine Frage, die noch vor der Bearbeitung entschieden werden muss, oder die zumindest im Zuge des Bearbeitungsprozess immer wieder neu gestellt werden muss. -> Erster Einwand: Die Frage, was das für Daten sind und auf welche Weise sie erhoben werden, geht der mathematisch-statistischen Bearbeitung voraus. Je unüberschaubarer die Datenmengen, desto unüberschaubarer die Art der Regelungen, wie diese Daten erhoben werden. Der Kontext bedingt die Erhebung.

"Daten erheben" ist ein bedenkenswerter Ausdruck. Daten sollen für sich selbst sprechen -- aber das macht nur Sinn, wenn sie vorher da sind. Wie steht das zur Datenerhebung? Ein naives Modell besagt, dass sie zuerst gefunden werden und dann "das Ihre" sagen. So wie man auf eine Metallteil stösst, das den Namen des Produzenten der Maschine trägt, von dem es stammt.
Daten sind eben nicht einfach da. Sie werden "formuliert", das ist ein weiterer bedenkenswerter Ausdruck, allerdings nicht in der Umgangssprache. Aber er passt bestens zu den Formularen, die wir besprochen haben. Das ist eine Formgebung und zwar eine Bearbeitung vor der Bearbeitung, der Daten später unterworfen werden.
Auch das ist ein naives Modell: Daten werden in Formularen erfasst, z.B. Name, Geburtsort und Adresse im Hotel. Aber die Name von Personen sind nicht "für sich selbst" Daten. Sie werden Daten, indem sie archivarisch und/oder datenbanktechnisch gefasst werden, erst dann können sie "erhoben" werden. Sie werden nicht "erfasst" und dann bearbeitet", sondern sie werden zu Daten, indem sie "formuliert" werden. --anna (Diskussion) 20:15, 2. Dez. 2015 (CET)

Mit “Prozess” ist die Verarbeitung der Daten gemeint. Im Text von Anderson wird darauf hingewiesen, dass Daten etwas tun; sie sprechen für sich selbst, woraus sich Aussagen über die Wirklichkeit der Welt ergeben. Ob Daten nun von Wissenschaftlern oder von “unbemannten” Computerprogrammen prozessiert werden, es handelt sich bei dem Prozess der Verarbeitung um eine Prozess der Übersetzung. Wenn Interessen und Vorlieben von Menschen oder zurückgelegte Wegstrecken, die vom Mobiltelefon erkannt werden, geschieht eine Übertragung einer Form oder gar eines Identitätskonstrukts; aus Literaturgeschmack und Muskelbewegungen werden mathematisch erfassbare Aussagen, diese werden zu elektrischen Impulsen, die über Kabelverbindungen um die Welt rasen, daraus wieder datenbankmäßig erfassbare Aussagen und daraus hierarchisch geordnete Suchergebnisse. Alle diese Erscheinungsformen haben nichts miteinander gemeinsam, außer den Weg, den sie zurücklegen, also die Spur der Übersetzungen, Bewertung, hierarchischer Einordnung, usw., die sie absolviert haben. Nun mag man der Meinung sein, dass sich Daten, eben weil es sich vermeintlich um mathematisch-statistische Aussagen handelt, ohne “Kosten” übersetzt werden können, aber diese Perspektive ist nicht überzeugend. Eine Rücküberetzung nach dem Transport bleibt immer noch eine Übersetzung; Reduktion ist kein Zurückgehen zum Ausgangspunkt, sondern nur eine weitere Art von Transport. Und die Art des Transports ist ganz erheblich dafür verantwortlich, was am Ende herauskommt. Die Unübersichtlichkeit der Datenmengen betrifft also nicht nur die User, sondern auch diejenigen, die mit der Verarbeitung der Daten zu tun haben, seien es nun menschliche oder nicht-menschliche Verarbeiter. -> Zweiter Einwand: Die Zunahme der Quantität der Daten ergibt keine Ordnung, ganz im Gegenteil: Je mehr Daten, desto mehr Übersetzungen, desto weniger Übersicht.

Es ist ein Unterschied zwischen den beiden Bemerkungen
  1. Daten sprechen für sich
  2. Aus Daten ergeben sich Aussagen über die Welt
In (1) wird suggeriert, dass sie eine Bedeutung haben, die man einfach aufnehmen könnte/sollte. In (2) wird dieser Gehalt in einen anderen Kontext übersetzt und daraus ergeben sich dann die von Euphon beschriebenen Verkettungen. Man muss aber bezüglich des Anfangs dieser Folge bedenken, dass Daten, wenn sie etwas sagen sollen, schon sprachförmig sein müssen. Das können sie nur sein, wenn wir sie verstehen oder zumindest versuchen können, sie zu verstehen. Selbst die einfachsten Daten sagen etwas, weil sie in Formulierungen entstehen, nicht in Algorithmen. --anna (Diskussion) 20:15, 2. Dez. 2015 (CET)

Mit “Output” ist das Resultat gemeint, das sich durch den Prozess ergibt. In Andersons Text wurde das Wort “Modell” verwendet, das mit einer bestimmten Art von “Wahrheit” in Verbindung gebracht wird. Dass sich “Wahrheit” ergibt ist nicht anzunehmen, eher, dass sich Wahrheiten ergeben, die abhängig von der jeweiligen Form der Übertragungsleistung sind. Solche Wahrheiten können höchstens Dispositive, in Foucaults Sinnn, sein. Daten sprechen nicht für sich selbst, sondern sie sprechen durch andere. Was sind diese Modelle wert, wenn abhängig vom Datenverarbeitungsprozess viele von ihnen entstehen? Korrelationen sind für sich genommen nicht genug, denn es muss mit entschieden werden, wie sie erzeugt wurden. -> Dritter Einwand: Korrelationen werden nicht eindeutig einordenbarer, wenn sie vermehrt werden. Je mehr Daten, desto mehr Möglichkeiten der Erzeugung von Korrelationen. Je mehr hinzuaddierte Möglichkeiten der Korrelation, desto weniger Übersicht ergibt sich.

Die Beschäftigung mit dem Phänomen der Big Data setzt die Annahme voraus, dass die Zunahme der Datenmengen eine Zunahme der Unübersichtlichkeit bedingt. Die Folgerung, es ergebe sich wie von Zauberhand Ordnung und Struktur, scheint überhastet und nicht schlüssig.

Was sich allerdings ergibt und meiner Meinung nach genauere Betrachtung verdient, ist die Möglichkeit, Kontroversen zu kartographieren. In dem Text Landscaping Climate Change von Rogers und Marres werden zwei Probleme von suchmaschinenbasierter Datenerhebung vorgestellt: “Moreover, it attempts to tackle the current inadequacy of Internet search engines, especially their inability to render source context and impart indications of the socio-epistemological value of information. (Rogers und Marres 1999 2) Die Vernachlässigung des Kontexts wurde bereits angedeutet: Daten werden erzeugt, ihre Prozessierung in Form von Übertragungen macht sie unübersichtlich, was eine Art Heuristik notwendig macht. “Whether or not the logics are intelligible to the user, ultimately he or she relies on his own personal framework of understanding to filter the flows anew.” (Rogers und Marres 1999 3) Der “Wert” des Ergebnisses ergibt sich nicht aus der zunehmenden Menge der Daten, sondern aus einer Bewertung heraus, die nicht von der Suchmaschine gewährleistet werden kann. Aus diesem Grund liegt es nahe, sich für Erziehung und Bildung der Nutzerinnen auszusprechen. Das ist allerdings ein anderes Thema. Was im bisher erörterten Zusammenhang interessant scheint, ist dass durch die Unübersichtlichkeit der Datenflut keine Einigung über den Kontext und über den “Wert” der daraus entstehenden Muster (Suchergebnisse) gibt. Das wurde auch von Anderson impliziert, als er davon sprach, dass sich diese Aspekte erst aus den Daten heraus ergeben müsse. Google ist hierbei aber nur ein Diskussionspartner in der Debatte darüber, wie die Kontexte und Werte konstruiert werden.

Es gibt zwei verschiedene Arten der "Vernachlässigung des Kontexts". Einerseits (das ist eher Euphons Perspektive) erzeugen jeweils spezifische Umstände (durch Regelungen) Daten, die sich in der Folge netzartig ausbreiten. Ich möchte andererseits betonen, dass es im Datenbegriff liegt, dass sie formuliert werden. Das eine ist der Versuch, die jeweiligen Umstände der Formulierung namhaft zu machen, das andere der Hinweis, dass alle Daten Formulierungen sind. Sie entspringen nicht bloß den Umständen, sie sind als Daten "umständlich", will sagen sie sprechen nicht direkt. --anna (Diskussion) 20:33, 2. Dez. 2015 (CET)
Ja, ich denke, da haben Sie recht. Ich habe das Schlaglicht auf die Vermengungen gerichtet und damit die Differenzierungen in den Hintergrund gestellt. Das liegt an der Art dieses Eintrags, in dem ich mich, zugegeben suggestiv, gegen den Plan von Chris Anderson stellen wollte. Mit etwas bescheidenerem Auftreten im Text wäre verbunden gewesen, auch die andere Seite zu zeigen. Es war mein Anliegen, mit dem Prozess zu beginnen und danach das Resultat in Betracht zu ziehen, obwohl es natürlich möglich ist, mit dem Resultat zu beginnen. Differenzierungen, Formulierungen bestehen, auch wenn sie nur über Umwege und Übersetzungen, also indirekt, gezeigt werden können, dem Prozess vorangehend schon implizit. “Implizit” setze ich in diesem Zusammenhang in die Nähe von dem, was Michael Polanyi über das “implizite Wissen” gesagt hat: die Differenzierungen bestehen, etwa wenn jemand an ein vertrautes Gesicht denkt, ohne die einzelnen Eigenschaften des Gesichts formulieren zu können. Das Wort “Eingabe” ist dem Wort “Eingebung” zumindest phonetisch recht nahe. Etwas als etwas erkennen ist eine Art Eingebung/Eingabe, die dadurch entsteht, dass das, was als etwas erkannt wird, sich dardurch zeigt, dass erkannt wird, was das ist, das erkannt wird.”wir wenden uns von etwas her etwas anderem zu und werden seiner im Lichte dieses anderen gewahr” (Polanyi 1985 20) - Oder: Einen Satz als Satz verstehen geht dem Verstehen des Satzes voraus, obwohl der Satz nur als Satz erkennbar ist, wenn erkannt wird, was er aussagt, also was erkannt wird, wenn etwas als etwas erkannt wird. Das scheint jetzt alles ein wenig paradox, aber wenn man die Umwege, die Übersetzungen ins Spiel bringt, dann kann man sich meiner Meinung nach vorstellen, weshalb die Daten nur indirekt geformt sind. Nichts ist an sich reduzierbar, aber alles kann reduziert werden, wenn Übersetzungsarbeit investiert wird, die sich als eine solche Arbeit auf etwas bezieht, das noch nicht direkt, sondern erst durch die Übersetzung formuliert werden kann (ein Beispiel dafür ist ein Polizeizeichner: er kann ein Gesicht als Zeichnung ausdrücken, das er nicht kennt, indem es ihm jemand beschreibt, der es kennt, es aber nicht in seiner Gänze beschreiben kann; ein anderes, etwas abstrakteres Beispiel - mit dem ich den Begriff “Wissen” etwas überdehne, das aber trotzdem dasselbe aussagt - ist das eines Eisberg, der schmilzt, weil sich die Atmosphäre erwärmt). Bei Chris Anderson wird die Übersetzungsarbeit vernachlässigt, deswegen ist das Resultat, das er sich verspricht, meiner Meinung nach nicht das, was durch die Methode die er vorschlägt erreicht werden kann. Vielleicht kann der in Andersons Text vorgeschlagene Vorgang mit einem Polizeizeichner verglichen werden, der das Gesicht desjenigen zeichnet, der ihm ein Gesicht beschreibt.
Euphon (Diskussion) 12:04, 3. Dez. 2015 (CET)


Mit “Diskussion” ist hier nicht “Diskurs” gemeint. Kontexte und Werte sind keineswegs nur im Bereich des Sozialen, Symbolischen, Meinungshaften zu finden. Die datenbankmäßige Verarbeitung der Big Data geht über das Vermögen des Menschen hinaus, hieß es bei Anderson. Kontroversen können auch innerhalb von Aussagen auftreten, auch innerhalb von Übersetzungsvorgängen, die nicht nur von Menschen vorgenommen werden, sondern auch von Computern und die “Diskussionen”, die sich ergeben, sind nicht nur auf menschliche, sondern auch auf nicht-menschliche Gesprächspartner angewiesen. Einen Beleg für die Vermenung von Menschen und Artefakten in Diskussionsprozessen liefert die von Rogers und Marres vorgestellte Studie betreffend den Klimawandel und die Diskussion darüber im Web. (Rogers und Marres 1999 6). An einer solchen Diskussion sind nicht nur Menschen beteiligt, sondern auch Kühe, Autos, Thermometer, usw. Und diese sprechen für sich selbst nur durch andere Beteiligte.

Die Artefakte spielen also eine Rolle. So weit kann man mit Anderson mitgehen. Allerdings wäre es ein Fehlschluss anzunehmen, dass, nur weil Dinge “verlässlicher” scheinen als Menschen, sich durch sie Muster und Strukturen in Form von Gesetzen zeigen würden, die mehr “Wahrheit” bieten, als bisher erzeugt worden ist. Es ergeben sich höchstens Regeln, die wesentlich kontingenter sind als Gesetze. Menschen wie Artefakte addieren durch ihr Tun beiderseits in die Zirkulation des Diskurses eingehende “Wahrheiten” und sofern alle Beteiligten, der Kontext und die Entscheidung über den Wert der Ergebnisse zusammengetragen sind, lässt sich auch etwas über die wirkliche Welt sagen, allerdings als Ausgangsbasis für Debatten und nicht in Form von Ordnung, die sich laut Anderson von selbst ergeben soll. Was Anderson übersieht, ist dass diese Ordnung durch Kontroversen angeregt wird, die mühevoll durchgearbeitet werden müssen, was mal mehr, mal weniger, aber doch immer Kosten verursacht; von einer “sich von selbst ergebenden” Ordnung keine Spur. Eine alternative Anwendung von Big Data schlagen Rogers und Marres vor:

“In the search by individuals and groups for potential common ground, alliance-building, consensus-formation, and new substantive positions, the discursive maps, queried for the relations of positions taken by debating parties, would show who’s taking which stand, in reference, for example, to one or more future scenarios currently under consideration.” (Rogers und Marres 19)

Ich kann mir eine kleine Polemik nicht verkneifen. Ich möchte Chris Anderson gegenüber nicht respektlos wirken, aber der von ihm vorgeschlagene Plan erinnert doch zu sehr an den Plan der Unterhosenwichtel, die bei einer beliebten Animationsfernsehserie vorkommen:

Underpants.jpg

Literatur:

Lippmann, Walter (2009) - The phantom public; Transaction Publ.; New Brunswick, NJ

Obar, Jonathan A. (2015) - Big Data and the Phantom Public: Walter Lippmann and the Fallacy of Data Privacy; working draft; http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2239188

Rogers, Richard und Marres, Noortje (2000) - Landscaping climate change: a mapping technique for understanding science and technology debates on the World Wide Web; http://govcom.org/publications/full_list/ROGERS_Marres_pus.pdf


Euphon (Diskussion) 10:40, 30. Nov. 2015 (CET)