Lesezeit ca. 10 Min.
arrow_back

Big Data als Paradigmenwechsel in der Sozialforschung


Logo von Die Mediation
Die Mediation - epaper ⋅ Ausgabe 3/2022 vom 30.06.2022

Seit ihren Gründungsjahren stand die Sozialforschung vor einem zentralen Problem: Woher bekommt man die richtigen Daten, um belastbare Schlüsse über unsere soziale (Um-)Welt ziehen zu können? Vor allem zwei zentrale Probleme bereiteten den Forscher Kopfzerbrechen:

Einerseits die Frage der Repräsentativität. Es war praktisch nicht möglich, mit den hergebrachten Forschungsmethoden – Beobachtung , Befragung , Experiment, Inhaltsanalyse – alle Mitglieder einer Gesellschaft oder eines ihrer Segmente zu untersuchen. Also musste man Stichproben heranziehen. Aus diesen jedoch auf die Allgemeinheit zu schließen, stellte sich oft als schwierig heraus, weil dafür alle Faktoren identifiziert und kontrolliert werden mussten, die das Ergebnis hätten verzerren können. Obendrein musste sich dann genau nach den richtigen Quoten eine ausreichende Zahl an Fällen für die Untersuchung finden.

Andererseits die Frage der ...

Artikelbild für den Artikel "Big Data als Paradigmenwechsel in der Sozialforschung" aus der Ausgabe 3/2022 von Die Mediation. Dieses epaper sofort kaufen oder online lesen mit der Zeitschriften-Flatrate United Kiosk NEWS.

Bildquelle: Die Mediation, Ausgabe 3/2022

Weiterlesen
epaper-Einzelheft 3,00€statt 9,99€
NEWS Jetzt gratis testen
Bereits gekauft?Anmelden & Lesen
Leseprobe: Abdruck mit freundlicher Genehmigung von Die Mediation. Alle Rechte vorbehalten.
Lesen Sie jetzt diesen Artikel und viele weitere spannende Reportagen, Interviews, Hintergrundberichte, Kommentare und mehr aus über 1050 Magazinen und Zeitungen. Mit der Zeitschriften-Flatrate NEWS von United Kiosk können Sie nicht nur in den aktuellen Ausgaben, sondern auch in Sonderheften und im umfassenden Archiv der Titel stöbern und nach Ihren Themen und Interessensgebieten suchen. Neben der großen Auswahl und dem einfachen Zugriff auf das aktuelle Wissen der Welt profitieren Sie unter anderem von diesen fünf Vorteilen:

  • Schwerpunkt auf deutschsprachige Magazine
  • Papier sparen & Umwelt schonen
  • Nur bei uns: Leselisten (wie Playlists)
  • Zertifizierte Sicherheit
  • Freundlicher Service
Erfahren Sie hier mehr über United Kiosk NEWS.

Mehr aus dieser Ausgabe

Titelbild der Ausgabe 3/2022 von Vermitteln macht glücklich. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Vermitteln macht glücklich
Titelbild der Ausgabe 3/2022 von Digitalisierung betrifft in erster Linie die Unternehmenskultur. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Digitalisierung betrifft in erster Linie die Unternehmenskultur
Titelbild der Ausgabe 3/2022 von Das Forschungstelegramm. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Das Forschungstelegramm
Mehr Lesetipps
Blättern im Magazin
Das Forschungstelegramm
Vorheriger Artikel
Das Forschungstelegramm
Reine Glückssache? – Der Schall des Leumunds
Nächster Artikel
Reine Glückssache? – Der Schall des Leumunds
Mehr Lesetipps

... Reaktivität. Wo Physiker nur auf der Quantenebene mit Beobachtereffekten ringen müssen, durchziehen diese die gesamten Sozialwissenschaften – sobald eine Befragung stattfindet, sich Menschen einer Beobachtung bewusst sind und natürlich erst recht in einem Experiment verändern diejenigen, deren „natürliches“ Verhalten man doch studieren möchte, eben dieses unterbewusst und unkontrollierbar. Ob man also selbst in einem repräsentativen Design wirklich unverfälschtes Verhalten misst, steht somit immer infrage.¹

Für wenige Disziplinen ist die Digitalisierung damit so disruptiv wie für die Sozialforschung , insbesondere in ihren Ausprägungen der Trend-, Markt- und Meinungsforschung : Einerseits erlauben die immer größeren Fortschritte bei der Datenverarbeitung eine umfassende Automatisierung der zeit- und budgetintensiven Datenerfassung und -analyse. Kaum noch werden die Ergebnisse standardisierter Fragebögen oder Medienresonanzanalysen „von Hand“ ausgewertet – die Arbeit, die bisher einen Großteil des Auf wands verursachte, wird nun weitgehend von Algorithmen erledigt, während Menschen sich auf die Interpretation und die Ableitung von Entscheidungen konzentrieren. Insbesondere aber ermöglicht die Allgegenwart des Internets in Smartphones, Smart Homes, intelligenten Werbeflächen und vielem mehr eine völlig neue Art der Erhebung : automatische Big Data Streams, die sich aus unserem Online-Verhalten speisen.

Welche Daten können wir nutzen – und wie?

Jede digitale Interaktion – ob bewusst wie bei einer Google-Suche oder unbewusst wie bei der Nutzung von Navigationsdiensten – hinterlässt Spuren. Für die meisten Quellen gilt: Diese Spuren dürfen aufgezeichnet, in der Cloud gespeichert und ausgewertet werden, solange dies anonymisiert geschieht. Es ist also in den meisten Fällen in der EU nicht legal zu protokollieren, wo Jan Schoenmakers gestern um 15:00 Uhr einkaufen war und was er zuvor bei Google gesucht hat – doch rechtlich sauber ist die Auswertung , wie viele Menschen gestern um 15:00 Uhr jenes Geschäft aufsuchten, über welche Wege die meisten von ihnen dorthin gelangten und dass es in Oldenburg um 14:00 Uhr eine entsprechende Suchanfrage gab.

Während uns somit der Einzelne – wie fast immer in der Sozialforschung – Rätsel genug aufgibt, um das Leben und die Menschheit auch weiterhin interessant zu halten, können wir quasi als Beiprodukt der Digitalisierung sehr viel über „die Menschen“ lernen, zum Beispiel über die Bevölkerung einer Stadt oder die an einem bestimmten Thema Interessierten. Dafür müssen wir allerdings die Datenquellen kennen und die Spuren zu lesen wissen. Software- und Analyseunternehmen leisten hierbei wichtige Unterstützung². Werden die Daten und Erkenntnisse aus ganz verschiedenen Quellen zusammenführt, lassen sich relevante Muster unserer Gesellschaft erkennen, statt lediglich Ausschnitte (wie zum Beispiel das Verhalten der Leser eines bestimmten Mediums oder der Besucher eines bestimmten Online-Angebots).

Unternehmen und Institutionen stehen dabei in der Regel mehr Daten zur Verfügung als Forschern und unabhängigen Analysten. Jeder Wirtschaftsakteur (und hierzu zählen selbstverständlich auch Ärzte, Therapeuten und Coaches) sammelt im Normalfall Daten zu seinen Kunden – zum Beispiel mit einem CRM-System oder Terminbuchungssystemen –, ihren Interaktionen mit seinen Produkten – etwa einem Fitness-Armband –, seinen Website-Besuchern und den Ergebnissen seiner Werbeaktivitäten. Solche Daten, auf die nur das Unternehmen Zugriff hat, das die Kundenbeziehung hält bzw. die Ware produziert hat, nennt man „First Party“-Daten.

Ein erheblicher Teil der oben beschriebenen Big-Data-Streams ist jedoch nicht nur für einen bestimmten Akteur nutzbar. Vielmehr handelt es sich um „Third Party“-Daten, die prinzipiell jeder öffentlich einsehen oder aus öffentlich zugänglichen Quellen beziehen kann. Hierzu zählen bereits publizierte Informationen, maschinenauslesbare Metadaten öffentlich verfügbarer Angebote (z. B. Websites) sowie die Nutzung allgemein zugänglicher, standardisierter Schnittstellen (APIs) wie jene von Suchmaschinen oder Social-Media-Plattformen. Sie bieten damit für die Sozialforschung einen Schatz von unermesslichem Wert, denn sie bilden nicht nur das Verhalten eines bestimmten Kundenkreises, sondern sehr breiter Teile der Bevölkerung und der Marktteilnehmer ab.

Sozialforschung mit „Third Party“-Daten – Quellen und Beispiele

Wegen der herausragenden Rolle von offenen „Third Party“-Daten für viele Anwendungsgebiete der Sozialforschung stelle ich im Folgenden drei wichtige Datenquellen vor, die in der Studie zur Entwicklung psychischer Gesundheit in der Pande-mie (Behnen et al. 2021b) verwendet wurden, und zeige beispielhafte Anwendungen dafür auf.

Suchmaschinen – der Finger am Puls

Die womöglich größte einzelne Datenquelle der Menschheit ist Google. Über 70 Prozent aller stationären und mehr als 93 Prozent der mobilen Suchen erfolgen über den Marktführer aus Mountain View (Statista 2020). Durch die hohe Abdeckung und die große zentrale Rolle von Suchmaschinen bei vielen Informationsprozessen (vgl. Statistisches Bundesamt 2019) erlauben Suchdaten oft valide Rückschlüsse darauf, was uns bewegt.

Google speichert jede Suche mit den damit zusammenhängenden Daten von Zeit, Ort und Endgerät. Diese Daten stehen über mehrere Jahre rückwirkend zur Verfügung , sodass sich durch KI-gestützte Zeitreihenanalysen typische jahreszeitliche Muster von echten Trends unterscheiden lassen. Während das kostenfreie Angebot Google Trends höchst unzuverlässig ist (siehe hierzu Behnen et al. 2021a), lassen sich Daten aus dem Werbeangebot Google Ads bei hinreichender Sensibilität für Statistik durchaus für belastbare Rückschlüsse verwenden und fließen regelmäßig in unsere Arbeit und Software ein.

Suchhäufigkeiten und deren Veränderung werden erfolgreich für Analysen und Prognosen zu so unterschiedlichen Anwendungsgebieten herangezogen wie Geburtenraten (z. B. Reidpath und Allotey 2018), Konsumtrends (z. B. Vosen und Schmitz 2011), Dynamik im Aktienmarkt (z. B. Preis et al. 2013) oder Suchtmittelgebrauch (z. B. Cavazos-Rehg et al. 2013). In der Studie von Behnen et al. (2021b) haben wir damit untersucht, wie sich die Zahl jener, die wegen psychischer Leiden Hilfe suchen, im Verlauf der Corona-Pandemie verändert.

Publizierte Inhalte – Themendynamik verstehen

Jeden Tag veröffentlicht die Menschheit rund 700 Millionen neue Beiträge in den sozialen Medien und auf Websites. Hinzu kommen hunderte Millionen journalistischer Artikel, sodass die Milliarde problemlos überschritten werden dürfte (eigene Berechnung auf Basis von DOMO 2018 and Spectralplex 2019). Diese Beiträge wiederum werden jeden Tag Hunderte Milliarden-mal gelesen, worauf täglich Milliarden Menschen reagieren.

Mit Webcrawling- und Webscraping-Programmen sowie über die standardisierten Schnittstellen sozialer Medien und journalistischer Datenbanken lassen sich nicht nur diese Beiträge mitsamt ihren Inhalten, Urhebern (wo angegeben) und Veröffentlichungszeiten erheben, sondern auch die Reaktionen darauf – ungefähre Leserzahlen und Kommentare, geteilte Links, „gefällt mir“-Angaben etc.

Da sich die Datenerhebung automatisieren lässt und Datenvolumina ebenso wie Rechenleistung im Preis über die Jahre extrem gefallen sind, können wir so beinahe in Echtzeit einen enorm umfassenden quantitativen Überblick darüber gewinnen, worüber Menschen wann und wo schreiben und worauf sie reagieren. Durch den erreichten Stand der Text- und Spracherkennung lassen sich dabei auch Print- und Rundfunkartikel durch automatische Digitalisierung bzw. Transkription einbeziehen.

Die Fortschritte beim maschinellen Text- und Bildverständnis ermöglichen auch immer tiefere Analysen der Inhalte, um die es dabei geht. Mit speziell entwickelten Analyseinstrumenten werden Muster erkennbar, die mit konventionellen Inhaltsanalysen nie sichtbar gewesen wären, da die Auswertung von Hunderttausenden oder gar Millionen Beiträgen nach einheitlichen Kriterien und durch dieselben menschlichen Analysten nicht darstellbar wäre. Künstliche Intelligenz hingegen kann objektiv herausarbeiten, welche textlichen und bildlichen Assoziationen bestimmte Lesergruppen bei einem Thema interessieren und mobilisieren, wie diese miteinander zusammenhängen und was sie auslösen oder verändern.

Die automatische Analyse veröffentlichter Beiträge und der Reaktionen darauf wird nicht nur erfolgreich eingesetzt, um Kundenpräferenzen zu erkennen und die Wirksamkeit von Werbemaßnahmen zu bewerten (z. B. Stevenson und Hamill 2012), sondern auch, um die Reputation von Akteuren im Blick zu behalten (z. B. Ntalianis et al. 2014), öffentliche Krisen aktiv zu managen (z. B. Avery 2017) oder die Qualität und Nutzung medizinischer Fachinformationen im Netz zu bewerten (Gelder et al. 2019). Für die Studie von Behnen et al. (2021b) haben wir entsprechende Daten herangezogen, um den Einfluss der Corona-Kommunikation in Journalismus und sozialen Medien auf die psychische Gesundheit zu untersuchen.

Public Data – der Staat als Datenschatz

Die meisten „Third Party“-Daten kommen von privatwirtschaftlichen Akteuren, doch ist auch der Staat ein zunehmend wichtiger Lieferant digitaler Daten. Mit der Richtlinie 2013/17/EU hat die Europäische Union die Mitgliedsstaaten verpflichtet, mit Steuergeldern erhobene Daten der Öffentlichkeit so einfach und umfassend zur Verfügung zu stellen, wie es die Wahrung von Sicherheit und Datenschutz erlaubt.

Dementsprechend wächst das digitale Angebot von Ministerien, staatlichen Instituten und statistischen Ämtern auf kommunaler, Landes- und Bundesebene rapide, ergänzt um spezifische Informationsangebote wie etwa interaktive Atlanten zu Infrastruktur, Luftqualität und vielem mehr.

Aufgrund ihrer Informationspflichten und ihrer Autorität in der Erhebung bilden staatliche Daten oft die gesamte Grundgesamtheit ab – also zum Beispiel die genaue Zahl der Fälle bestimmter Krankheitsbilder, die in einem Bundesland im Mai 2021 von Krankenhäusern abgerechnet wurden.

Solche Daten sind nicht nur für sich wertvolle Quellen für die Sozialforschung – sie sind auch unverzichtbar für die Interpretation gemessener digitaler Verhaltensdaten: Wenn man zum Beispiel wissen möchte, ob mehr Menschen in Leipzig in der Pandemie wegen Depressionen Hilfe gesucht haben als in Bremen, sollte man die Zahlen der Suchanfragen selbstverständlich um die Bevölkerungszahlen, Alters- und Geschlechtsstruktur der beiden Städte bereinigen. Die entsprechenden statistischen Verfahren können dabei längst zuverlässig , in Sekundenschnelle und auch durch Laien mit KI-gestützten Softwaretools durchgeführt werden.

Schon gewusst?

Digitalisierung ist keine Frage des Alters: Wie Senioren das Internet für sich entdecken

Lange Zeit galten ältere Menschen als „technische Neandertaler“, die Smartphones, Online-Shopping und Co. meiden. Dass dieses Vorurteil nicht (mehr) der Realität entspricht, zeigt die Schweizer Studie „Digitale Senioren“. Diese hat ermittelt, dass inzwischen rund 74 Prozent der Menschen im Alter von über 65 Jahren online unterwegs sind, in der Altersgruppe der 65- bis 69-Jährigen sind es sogar 95 Prozent. Gerade Jungsenioren sind im Umgang mit Kommunikationstechnologien ebenso versiert wie jüngere Menschen. Der sogenannte digitale Graben (der Zeitpunkt, ab dem die Online-Nutzung wieder abnimmt) hat sich merklich nach hinten verschoben und liegt derzeit bei 80 Jahren. 69 Prozent der Befragten greifen im Rahmen ihrer „Online-Experience“ auf das Smartphone zurück, 81 Prozent davon nutzen dieses täglich. Zu den beliebtesten Anwendungen zählen Instant-Messenger und Fitness-Apps. Laut Studie bewirkt die Online-Aktivität bei Senioren ein gesteigertes Gefühl von Selbstständigkeit und Unabhängigkeit. Auch „Offliner“ haben großes Interesse an den Angeboten, wünschen sich dabei aber mehr Unterstützung.

Quelle: Pro Senectute Schweiz (Hrsg.) (2020): Digitale Senioren 2020. Online abrufbar unter: https://www.prosenectute.ch/de/ dienstleistungen/publikationen/studien/digitale-senioren.html.

Spannende Anwendungen solcher öffentlichen Daten finden sich weit über die reine Marktforschung hinaus – von Analysen des Energieverbrauchs (z. B. Kolter und Johnson 2011) über Prognosen zu Unternehmenserträgen (z. B. Burdick et al. 2014) bis hin zu Fragen der Sicherheit von Sozialversicherungsdaten (z. B. Acquisti und Gross 2009). In der Studie von Behnen et al. (2021b) haben wir öffentlich verfügbare Gesetze und Verordnungen ausgewertet, um den Einfluss von Corona-Maßnahmen auf die psychische Gesundheit zu untersuchen (ausführlicher hierzu der Forschungsbericht in Die Mediation, Quartal II/2022, S. 6–10). Für eine vorige Studie zur Wirksamkeit von Lockdowns (Schoenmakers 2021b) wurden überdies die Daten des RKI zu sämtlichen Corona-Infektionen einbezogen.

Fazit: mehr Digitalisierung in Forschung und Analyse wagen

Vergangen sind die Zeiten, als wir für Sozialforschung zwingend das Haus verlassen mussten und darauf angewiesen waren, ausreichend Menschen in der richtigen Zusammensetzung für Interviews gewinnen zu können. Heute können wir das gesamte digitale Verhalten der Menschheit als kontinuierliche, anonyme Beobachtung unseres Wirtschafts- und Soziallebens auswerten – sieben Tage in der Woche, 365 Tage im Jahr.

Diese Möglichkeiten werden in Forschung und Praxis bisher noch recht wenig ausgeschöpft, insbesondere in Deutschland. Dabei hat jeder Forscher annähernd den gleichen Zugang dazu, es handelt sich nicht um ein Spiel, an dem nur die großen Unternehmen oder Spitzeninstitute teilnehmen können. Automatisierung mit künstlicher Intelligenz und einfache Benutzeroberflächen in immer mehr Tools machen die Nutzung von Tag zu Tag günstiger und auch für Laien einfacher.

Notwendig bleiben hingegen ein Grundverständnis für klare Forschungsfragen, sinnvolle Datenquellen und Statistik – sowie der Mut, methodisch neue Wege zu beschreiten.

¹Dazu ein Beispiel: Ist Menschen bewusst, dass ihr Verhalten untersucht wird – z. B. in einer Befragung – verhalten sie sich bei moralisch besetzten Themen (z. B. die Neigung, Bio-Produkte zu kaufen oder eine extremistische Partei zu wählen) oft nicht authentisch, sondern versuchen, sich vor der erhebenden Partei (z. B. dem Interviewer) positiv darzustellen, in dem sie die vermeintlich erwünschte Reaktion zeigen (vgl. Reinecke 1991).

²Derartige Services bietet u. a. die vom Autor geführte HASE & IGEL GmbH an – im März 2022 bei den Stevie Awards als innovativstes Technologie-Unternehmen unter 100 Mitarbeitern in der deutschsprachigen Welt prämiert und im April 2022 für den Niedersächsischen Innovationspreis nominiert.

Quellen

Eigene zitierte Publikationen zum Thema finden Sie hier:

Behnen, Philipp et al. (2021a): Experimental Evaluation of Scale, and Patterns of Systematic Inconsistencies in Google Trends Data. In: Koprinska, Irina et al.: ECML PKDD 2020 Workshops. ECML PKDD 2020. Communications in Computer and Information Science, vol 1323. DOI: 10.1007/978-3-030-65965-3_25.

Behnen, Philipp et al. (2021b): Entwicklung und Treiber psychischer Krankheitsindikatoren in der Covid-19-Pandemie. Whitepaper. DOI: 10.13140/ RG.2.2.29901.56806/2.

Schoenmakers, Jan (2021a): Mit Big Data den Markt verstehen. In: Naskrent, Julia/Stumpf, Marcus/Westphal, Jörg (Hrsg.): Marketing & Innovation 2021 Digitalität – die Vernetzung von digital und analog. Wiesbaden: Springer Gabler. DOI: 10.1007/978-3-658-29367-3.

Schoenmakers, Jan (2021b): Explorative Analyse zur Wirksamkeit von Corona-Verordnungen in Deutschland auf die Eindämmung des Infektionsgeschehens. Whitepaper. DOI: 10.13140/RG.2.2.22573.61929/1.

Weitere Studien und Demo-Analysen auf https://www.was-daten-verraten.de

Die weiteren zitierten Quellen sowie zusätzliche relevante Paper zum Thema finden Sie im Quellenapparat an dieser Stelle: https://bit.ly/36LzyXk

Jan Schoenmakers

Sozialwissenschaftler und zertifizierter Mediator; Gründer und Geschäftsführer der HASE & IGEL GmbH, einem Software- und Serviceanbieter für KI-gestützte Big-Data-Analysen (www.haseundigel.com). Er hat zahlreiche Analysemethoden und -modelle für soziale Dynamik sowie zur Veränderungs- und Krisenkommunikation publiziert. Kontakt: jan.schoenmakers@haseundigel.com.