Erläuterung des methodischen Vorgehens (MATR Nr. 8)
1. Zur Genese der Telegram-Netzwerke
Das Monitoring von Machine Against the Rage (MATR) auf Telegram geht von einem akteursbasierten Ansatz aus. Das heißt, dass relevante digitale Sphären für demokratiefeindliche Kommunikation über eine Vorklassifizierung von identifizierbaren Akteuren eingegrenzt werden. Sie dienen als Startpunkte für die Sichtung breiterer Dynamiken und als Knotenpunkte für Protestmobilisierung. Ausgehend von einem Set von 269 qualitativ durch zwei Expert*innen klassifizierten Akteuren, die im öffentlichen Diskurs durch ihre Agitation Sichtbarkeit erhalten haben, wurden Charakteristika wie ideologische Ausrichtung auf Grundlage des Kommunikationsverhaltens und der bekannten Offline-Positionierungen der Akteure sowie Formen der Organisierung festgelegt, um das Feld zu sondieren. Zudem wurde die Verbindung zu breiteren Netzwerken markiert, bspw. im Falle von reichweitenstarken Accounts, die für breitere Bewegungen sprechen. Ausgehend von dieser manuellen Einordnung, die durch eine externe Expertise von Karolin Schwarz vorgenommen und von den Mitarbeitenden von MATR geprüft worden ist, wurde ein automatisiertes, mehrstufiges Snowball-Sampling auf der Plattform Telegram durchgeführt.
1.a. Klassifizierung der Akteure
Aus dem Snowball-Sampling wurden für die Plattform Telegram 4.584 öffentlich kommunizierende Kanäle und Gruppen – im folgenden beides unter »Accounts« zusammengefasst – aufgenommen, die sich durch Weiterleitungen von plattforminternen Beiträgen in das Netzwerk einfügen. Bei Telegram haben Kanäle eine einseitige Richtung der Kommunikation (One-to-Many-Kommunikation), während in Gruppen sich jede mit jedem per Chat austauschen kann. Letztere sind in ihrer Ausrichtung divers, weswegen sie zur besseren Analyse ein weiteres Mal klassifiziert wurden, um eine Einordnung über die ideologische Ausrichtung und Verschiebung ihrer Positionierung im Diskurs treffen zu können. Hierzu wurden Accounts anhand ihrer Subscriber und Zentralität im Netzwerk sortiert und die ersten 1.400 auf ihr Kommunikationsverhalten geprüft. Hinzu kommen weitere Accounts, welche im journalistischen oder wissenschaftlichen Diskurs bereits behandelt wurden. Die qualitative Einordnung der Accounts in zuvor definierte Kategorien (s.u.) umfasste den Einblick in die letzten 20 Posts und die 20 zuletzt geteilten Links des Kanals und wurde durch das Fachwissen der Expert*innen von MATR abgeglichen. Zudem wurden Kanäle, die sich in ihrer Selbstbeschreibung oder über die Nutzung einschlägiger Codes der Querdenken-Bewegung oder dem QAnon-Verschwörungskult zuordnen, in die jeweiligen Kategorien eingeordnet. Ähnliches gilt für Reichsbürger, die einen markanten Außenauftritt haben. Die Klassifizierung soll in der Zukunft weiter ausgebaut werden. Bezugnehmend auf bestehende Forschungsliteratur wurden in einer idealtypischen Klassifizierung die folgenden Ober- und Unterkategorien unterschieden:
Rechtsextremismus:
- Neonazismus: Dessen Anhänger*innen zeichnen sich durch einen positiven Bezug auf den Nationalsozialismus und ein rassistisch strukturiertes Weltbild aus. Viele Anhänger sind Teil von Subkulturen, in denen über Musik, Kampfsport und Hooliganismus ein Zugang zu neonazistischem Gedankengut geliefert wird.
- Reichsbürger: Eine Gruppe von Menschen, die davon ausgeht, dass das Deutsche Reich nie aufgelöst wurde und die immer noch bestehende legitime Herrschaftsform sei. Die bundesdeutsche Demokratie habe keine repräsentative Funktion, sei nicht souverän, sondern von fremden Mächten gesteuert.
- Extreme Rechte: Organisationaler Zusammenhang, der die liberale Demokratie abschaffen will. Ihre Ideologie beruht auf Ungleichwertigkeit und Autoritarismus.
- Neue Rechte: Ein strategisch denkender Kreis rechtsextremer Aktivist*innen, die über kulturelle Aktivitäten politische Macht aufbauen wollen. Ihre Wortführer*innen inszenieren sich als ideologische Vordenker*innen. Parteien und Bewegungen werden von ihren Vertreter*innen strategisch beraten.
- Populistische Rechte: Eine Sammelkategorie, in der islamfeindliche und rassistische Akteure mit einem rechten Weltbild eingeordnet werden. Es wird das ehrliche Volk gegen eine korrupte Elite gestellt. Das System soll aber demokratisch umgestürzt werden.
Konspirationismus:
- Verschwörungsideologie: Eine Oberkategorie für Akteure, die den Lauf der Geschichte durch eine Aneinanderreihung von Verschwörungen versteht, weshalb prinzipiell alles hinterfragt wird und ein schlichtes Freund-Feind Bild entsteht. Das Verschwörungsdenken übersetzt sich in politische Mobilisierung.
- Corona-Desinformation: Umfasst Akteure, die im Kontext der Corona Pandemie mit skeptischen oder leugnerischen Positionen in den öffentlichen Diskurs treten. Sie nutzen ihre öffentlichen Kanäle meist monothematisch.
- Esoterik: Eine weltanschauliche Strömung, die durch Heranziehung okkultistischer, anthroposophischer sowie metaphysischer Lehren und Praktiken auf die Selbsterkenntnis und Selbstverwirklichung des Menschen abzielt.
- QAnon: Meint einen verschwörungsideologischen Kult, der sich um falsche Behauptungen dreht, die von einer anonymen Person (bekannt als »Q«) aufgestellt wurden. Ihre Erzählung besagt, dass satanische, kannibalistische Eliten einen globalen Ring für systematischen Kindesmissbrauch betreiben. Entstanden während Trumps Präsidentschaft wird von einem tiefen Staat ausgegangen, der die Regierung kontrolliere.
- Querdenken: Mitglieder und Sympathisant*innen einer Bewegung, die sich im Kontext der Proteste gegen die Covid-19-Pandemie gegründet hat und Zweifel an der Rechtmäßigkeit der Maßnahmen zur Eindämmung mit einer radikalen Kritik an demokratischen Institutionen verbindet.
- Anti-Mainstream-Gruppen: Ohne klare Zielsetzung. Sie setzen ihre Akzente alternierend zu dem, was als stark grün geprägter Mainstream wahrgenommen wird, und haben sich oft aus Querdenken-Gruppen heraus entwickelt.
Sonstiges:
- Russischer Imperialismus: Insbesondere russische Akteure, die den Aufbau eines russischen Reichs propagieren und den Krieg in der Ukraine befürworten.
- Pro-russische Propaganda: Kanäle, die pro-russische Propaganda betreiben und einseitig über den Krieg in der Ukraine berichten.
- Prepper: Eine Gruppe Personen, die sich mittels individueller oder kollektiver Maßnahmen auf verschiedene Arten von Katastrophen vorbereiten und nicht selten Phantasien des Umsturzes pflegen.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der kategorisierten Kanäle in Ideologie und Ideologiegruppe. Die Farbgebung wird nach Möglichkeit in allen visuellen Elementen beibehalten.
Viele der identifizierten Kanäle lassen sich mehreren Kategorien zuordnen. So ist es nicht leicht, Verschwörungsideologien von rechtsextremen Netzwerken zu isolieren. Auch pflegen lokale Ausprägungen bestimmter Bewegungen unterschiedliche Bündnispolitiken oder nutzen bestimmte Affiliationen, um sich einem öffentlichen Stigma zu entziehen. Ausschlaggebend für die Klassifizierung war ein kumulatives Verfahren, wonach geprüft wurde, ob Akteure, die Verschwörungsmythen teilen, auch offensichtlich mit rechtsextremen Accounts verbunden sind. Ist dies der Fall, fällt die Entscheidung auf die extrem rechte Kategorie. Wenn allerdings bekannt ist, dass bspw. einzelne Influencer sich stärker ein eigenes verschwörungsideologisches Profil aufbauen, um sich von organisierten rechtsextremen Strukturen zu distanzieren oder eine bestimmte Verschwörungstheorie besonders prägnant ist, wird hier eine Unterkategorie des Konspirationismus gewählt. Um einen individuellen Bias zu reduzieren wurden die 269 Seed-Accounts von zwei Expert*innen gemeinsam kategorisiert. 145 Accounts wurden von der weiteren Auswertung ausgeschlossen, da sie nicht in das potenziell demokratiefeindliche Spektrum gehören.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der betrachteten Nachrichten nach der Ideologie der Kanäle und Gruppen für den Zeitraum dieses Trendreports.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der betrachteten Nachrichten nach der Ideologie der Kanäle (ohne Gruppen) im Zeitverlauf.
Die Anzahl der Nachrichten pro Ideologie ist sehr heterogen. QAnon und andere Verschwörungsideologen senden sehr viel mehr Nachrichten als andere Ideologien.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Auf der X-Achse sind die Anzahl der Kanäle, welche von groß nach klein geordnet waren. Auf der Y-Achse ist der kumulierte Anteil der Gesamtnachrichten von den Top-X-Kanälen. Zum Beispiel: Die Top-5 der Querdenken-Kanäle sind für 51% der Nachrichten verantwortlich.
Neben der Anzahl der Nachrichten ist es für die Interpretation der Datenauswertung interessant, welcher Anteil der Nachrichten sich auf wenige Kanäle konzentriert. Den Ideologien Prepper und Russischer Imperialismus sind nur wenige unserer Kanäle zuzuordnen, daher können auch nur begrenzt Aussagen für die Gruppen getroffen werden. Bei Reichsbürger, Neue Rechte, Pro-Russische Propaganda und Neonazismus werden über 80% der Nachrichten von den 10 Top-Kanälen gesendet. Die Dominanz dieser Akteure wird bei Datenauswertungen beachtet: zum Beispiel wird für ausgewählte Analysen der zusammengefasste Rechtsextremismusbereich betrachtet.
1.b. Analyse der Kommunikationsnetzwerke im Untersuchungszeitraum
Um die Kommunikationsnetzwerke auf Telegram im Untersuchungszeitraum, also von September 2022 bis August 2025, zu analysieren und die Interaktionen der jeweiligen Akteursgruppen darzustellen, haben wir ein cross-sektionales Chord-Diagram erstellt. Dieses zeigt das Weiterleitungsverhalten der oben genannten politische Milieus in absoluten Zahlen ohne Berücksichtigung endogener Effekte. Netzwerkknoten sind hier die jeweiligen Milieus aggregiert.
Darüber hinaus haben wir ein Netzwerkinstanz gebildet, um auch das Weiterleitungsverhalten auf Akteursebene darstellen und analysieren zu können. Die individuellen Akteure wurden nach ihrer Ideologie eingefärbt und Verbindungen stellen deren Weiterleitungen von Telegraminhalten dar. Akteure, die wir nicht klassifiziert haben, bzw. die für uns von nachgelagertem Interesse sind, sind anonymisiert und grau hinterlegt.
1.c. Link-Klassifikation
Sowohl für die Identifikation von Alternativmedien als auch für das Clusterverfahren für die Typen von Telegram-NutzerInnen spielte es eine entscheidende Rolle, nachvollziehen zu können, welche Arten von Links in den Kanälen geteilt werden und wie häufig diese Arten jeweils vorkommen.
Aus diesem Grund haben wir in einem ersten Schritt alle Links aus unserem Monitoring extrahiert. Diese wurden dann durch verschiedene Normalisierungsschritte transformiert (bspw. Auflösung von Weiterleitungen bei URL-Shortener, Google-Translate-Links), um daraus jeweils eindeutig die Domain und Sub-Domain zu ermitteln. Diese Domains wurden dann mittels regulärer Ausdrücke(Regex) folgenden Klassen und Unterklassen zugeordnet:
- Socials: Telegram (selbst & fremd), Soziale Netzwerke, Bio-Links, Microblogging-Services, andere Messenger
- Externe Inhalte: Videoplattformen, Audioplattformen, Newsletter
- Shops: Verlage, Record Stores, Online-Versände
- Finanzierung: Direkt-Spenden-Services, Spenden-Subpage auf Webseiten
- Sonstige: App-Stores, Wikis, Link-Shortener, Mailprovider, VPN Services, Kalender, Office-Links, Archive
Zu den externen Inhalten zählen zusätzlich noch diejenigen Links, die keiner der obigen Kategorien zugeordnet werden konnten. Sie werden als »Webseite« eingeordnet (bspw. von Medien, Alternativ-Medien).
1.d. Clustering von Nutzertypen
Zur Identifikation unterschiedlicher Nutzungstypen von Telegram-Kanälen wurde angenommen, dass es verschiedene Dimensionen gibt auf denen sich Kanäle in ihrem Nutzungsverhalten der Plattform unterscheiden können:
- Rollen (News-Kuration vs. Kommentierung vs. Content-Producer)
- Fokus auf Telegram (Telegram-First vs. Multi-Plattform vs. Zweitverwertungskanal)
- Professionalisierungsgrad (Geschäftsmodel vs. Meinungsplattform)
Ausgangspunkt waren alle Nachrichten der Kanäle über den dreijährigen Betrachtungszeitraum. Basierend auf den Annahmen wurden verschiedene Kanalmetriken entwickelt, um wahrgenommenes Nutzungsverhalten quantifizierbar machen zu können und um zu verifizieren, ob diese Hypothesen zu empirischen Unterscheidungsmerkmale eröffnen.
Aktivitätsmetriken: Es wurden drei klassische Metriken als Indikatoren für Nutzungsfrequenz, Eigenproduktion und Komplexität abgeleitet:
- Monatliche Aktivität: Durchschnittliche Anzahl an Nachrichten – Weiterleitungen und eigene Nachrichten – pro Monat im Beobachtungszeitraum.
- Möglicher Indikator für Aufwand/Fokus auf Telegram.
- Anteil weitergeleiteter Nachrichten: Prozentualer Anteil der Weiterleitungen an der Gesamtzahl an Nachrichten des Kanals haben.
- Möglicher Indikator zur Abgrenzung von Produktion und Reproduktion und zur Einbindung in bestehende Kommunikationsnetzwerke.
- Nachrichtenlänge: Durchschnittliche Anzahl an Zeichen in eigenen Nachrichten im Beobachtungszeitraum.
- Möglicher Indikator für die Komplexität der Beiträge.
Verlinkungsmetriken: Hinzu kommen weitere Kategorien, die die Art der Verlinkungen versuchen zu quantifizieren. Basierend auf der oben beschriebenen Link-Klassifikation wurden folgende zusätzliche Metriken abgeleitet:
- Top-Inhalt: Prozentualer Anteil der eigenen Nachrichten, die auf die am häufigsten verlinkte Domain aus dem Bereich »Externe Inhalte« verweist.
- Möglicher Indikator für die Zweitverwertung von extern publizierten Inhalten.
- Top-Social: Prozentualer Anteil der eigenen Nachrichten, die auf die am häufigsten verlinkte Domain aus dem Bereich »Socials« verweist (exklusive der Links, die auf Telegram-Kanäle verlinken).
- Möglicher Indikator für Cross-Plattform-Aktivität.
- Top-Shop: Prozentualer Anteiler der eigenen Nachrichten, die auf die am häufigsten verlinkte Domain aus dem Bereich “Shops” verweist.
- Möglicher Indikator für Werbung oder Geschäftstätigkeit.
- Quellen-Vielfalt: Anzahl unterschiedlicher Domains aus dem Bereich “Externe Inhalte” im Verhältnis zur Gesamtzahl der Nachrichten.
- Möglicher Indikator für News-Kurationstätigkeit, die über die Weiterleitung weniger Standard-Kanäle hinausgeht.
Analysiert wurden ausschließlich Kanäle mit Broadcast-Charakter, also einseitiger Kommunikation ohne Antwortmöglichkeit. Gruppen unterscheiden sich in ihrer Kommunikation sehr grundsätzlich von Kanälen und bilden ein eigenes Cluster, das hier von der Analyse ausgeschlossen wurde.
Feature-Transformation:
Nicht skalierte Aktivitätsmerkmale (durchschnittliche monatliche Nachrichtenzahl, mittlere Länge eigener Beiträge) wurden logarithmiert, um Verteilungen mit hoher Schiefe zu normalisieren. Metriken auf Anteilsbasis wurden an der Interquartilsdifferenz (25 %- und 75 %-Quantil) beschnitten, um die Robustheit gegenüber Ausreißern zu erhöhen. Anschließend wurde mithilfe der Uniform Manifold Approximation and Projection (UMAP) eine zweidimensionale Einbettung berechnet, die lokale Strukturen der Daten bewahrt und zugleich die Dichte im Merkmalsraum erhöht. Die Parameter wurden dabei über eine Parameter Search und visuelle Inspektion so geschätzt, dass die Wahrscheinlichkeit für die Detektion trennscharfer Cluster erhöht wird.
Clusterbildung:
Für die Clusterbildung wurde ein hierarchisches Verfahren eingesetzt. Eine Parameter-Search ergab eine optimale Clusteranzahl von sechs. Mit einem Silhouettenkoeffizienten von 0,62 weist die Lösung eine gute Trennschärfe zwischen den Clustern auf.
Ergebnisse:
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
1.e. Zur Klassifizierung der Alternativmedien
Um Alternativmedien und deren Accounts zu identifizieren, haben wir auf die oben definierte Klassifikation von Links zurückgegriffen. In der Annahme, dass alternative Medien die Plattform vor allem nutzen, um ihre eigenen Inhalte zu streuen, haben wir diejenigen Kanäle untersucht, die in ihren eigenen Nachrichten zu einem großen Anteil auf eine einzige als Webseite klassifizierte Domain verlinken.
Nach einer ersten Probekodierungsrunde (N=100) haben wir den Schwellwert konservativ auf 40% »Eigenreferenz« festgelegt, weil innerhalb des Kodierens keine Kanäle von Alternativmedien auftraten, die eine Schwelle von 50% unterschritten.
Das Kodierungsschema orientiert sich an Buehling und Heft1 sowie an Heft und Mayerhöffer2 mit zwei Abweichungen. Zum einen wurden Wikipedia sowie weitere Social-Media-Auftritte als ergänzende Quellen herangezogen, sofern keine eindeutige Selbstbeschreibung der Kanäle auf Telegram oder ihren Webseiten vorlag. Zum anderen wurde die ursprüngliche Beschränkung auf textbasierte Nachrichtenformate zugunsten von Video-News-Formaten aufgehoben, sofern diese auf einer eigenen Plattform veröffentlicht wurden.
Intercoder-Reliabilität der Klassifizierung:
Im Allgemeinen werden für die Bestimmung der Reliabilität (Zuverlässigkeit) von Kodierungen meist verschiedene Kappa Statistiken verwendet (bzw. lässt sich im vorliegenden Fall der dichotomen Kategorien zeigen, dass die geläufigsten Koeffizienten äquivalent zu Kappa Statistiken sind). Kappa bezieht sich dabei auf eine Gruppe von Methoden, bei denen die Übereinstimmung zwischen Kodierern um einen dem Zufall zugeschriebenen Faktor bereinigt wird, um somit zu ermitteln, wie groß die rein inhaltliche Übereinstimmung ist. Mathematisch lassen sich diese Methoden wie folgt darstellen:
Inhaltliche Unterschiede ergeben sich dabei vor allem daraus, dass für die Berechnung der zufälligen Übereinstimmung unterschiedliche Annahmen getroffen werden. Um den Reliabilitätskoeffizienten haben wir Cohens Kappa genutzt. Er ist in der wissenschaftlichen Literatur die am häufigsten verwendete Kappa-Statistik. Er ist nur dann anwendbar, wenn genau zwei KodiererInnen, jedes Objekt kodiert haben. Die zugrundeliegende Annahme ist, dass beide KodiererInnen mit potentiell unterschiedlicher Frequenz die entsprechenden Ausprägungen kodieren. Als Schätzer für diese Verteilungen wird die beobachtete prozentuale Anteil an Ja-Stimmen für die betrachtete Kategorie herangezogen und daraus berechnet, wie groß die erwartete Übereinstimmung wäre, wenn beide einfach zufällig/blind mit dieser Wahrscheinlichkeit kodieren würden.
Je nach Forschungsfeld und -gegenstand können die Interpretationen der Übereinstimmungsgrade teilweise deutlich unterschiedlich ausfallen. Beispielhaft vergleicht die folgende Abbildung verschiedene “Faustregeln”, die in der Psychiatrie und Psychologie weit verbreitet sind, um die Ergebnisse von Kappa-Statistiken in qualitative Rubriken einzuordnen. Für unsere Zwecke sind wir in grundsätzlicher Übereinstimmung mit obigen Interpretationen davon ausgegangen, dass wir mit der Einteilung in “exzellent” (über 0,8), “gut” (0,6 bis 0,8) und “moderat” (0,4 bis 0,6) eine relativ konservative Mischform nutzen werden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Wie das obige Diagramm zeigt, sind die Reliabilitätskoeffizienten (Cohens Kappa) der beiden Kodierung mit über 0,9 auf einem exzellenten Niveau. Abweichungen in der Kodierung gibt es nur in 3% aller Fälle.
2. Zur Genese der Themenmodelle
2.a. Algorithmus
Zur Berechnung der Themen haben wir die latente Dirichlet-Zuordnung genutzt (LDA). Im Gegensatz zu komplexeren Methoden – wie in (5.) beschrieben – lässt sich diese Methode mit vertretbarem Aufwand für große Textmengen einsetzen und erhält daher den Vorzug für das allgemeine Themenmodell.
Der LDA berechnet zu einem gegeben Korpus und einer gewünschten Themenzahl k eine Wahrscheinlichkeitsverteilung für alle Wörter im Korpus für jedes der k Themen. Dafür wird jedes Dokument als eine Bag-of-Words betrachtet, bei dem ausschließlich das Vorkommen einzelner Wörter von Bedeutung ist, während die Wortreihenfolge und die Satzzusammenhänge für die Klassifikation von Themen keine Rolle spielen. Jedem Dokument wird die Eigenschaft zugeschrieben, aus mehreren latenten Themen zu bestehen. Ein Thema ist schließlich durch eine Wahrscheinlichkeitsverteilung von Wörtern definiert.
Das prinzipielle Verfahren beginnt mit der zufälligen Zuweisung von jedem Wort im Korpus zu einem Thema. Danach folgt eine Schleife über alle Wörter in allen Dokumenten mit zwei Schritten: Mit der Annahme, dass alle anderen Wörter außer das aktuelle korrekt ihren Themen zugeordnet sind, wird die bedingte Wahrscheinlichkeit p(Thema t | Dokument d) berechnet: Welche Themen kommen im Dokument wahrscheinlich vor? Das zurzeit betrachtete Wort passt mit höherer Wahrscheinlichkeit zu diesen Themen. Also:
-
- Berechnung der bedingten Wahrscheinlichkeit p(Wort w | Thema t): Wie stark ist die Zugehörigkeit des Wortes zu den Themen?
- Aktualisieren der Wahrscheinlichkeit, dass ein Wort zu einem Thema gehört: p(Wort w ∩ Thema t) = p(Thema t | Dokument d) * p(Wort w | Thema t).
Durch mehrere Iterationen über alle Wörter im Dokument erreicht der Algorithmus eine stabile Konfiguration von Wortwahrscheinlichkeitsverteilungen für k Themen.
2.b. Datengrundlage und Preprocessing
In die Themenmodellberechnung sind alle Nachrichten der in Abschnitt 1.a genannten Kanäle eingegangen. Es erfolgte die Bearbeitung mit folgender Preprocessing-Pipeline:
-
- Filtern der NA-Texte: Nachrichten, die nur aus Medien-Dateien bestehen, ohne weiteren Text zu enthalten, wurden in der Themenmodellierung nicht berücksichtigt.
- Filterung auf den Zeitraum vom 1. März 2023 bis 31. Mai 2024.
- Filter auf > 50 Zeichen: Eine erste Filterung auf die Mindestanzahl von Zeichen ist nötig, um eine Spracherkennung durchzuführen.
- Filter auf deutschsprachige Nachrichten: Dafür wurde die Bibliothek Polyglot verwendet.3
- Preprocessing der Texte.
- Entfernung der URLs mittels Regular Expressions.
- Lemmatisierung, also die Reduktion der Wortform auf ihre Grundform, mit spaCy bei Verwendung der Pipeline de_core_news_lg.4
- Entfernung von Stoppwort-Lemmata anhand verschiedener Stoppwortlisten.
- Entfernung von Wörtern mit dem Vorkommen < 8.
- Entfernung Sonderzeichen.
- Filter auf 1-n Kanäle: Die Nachrichten innerhalb der Chatkanäle behandeln oft keine Themen im gewünschten Sinn und verschlechtern die Nutzbarkeit des Themenmodells. Die Texte werden dennoch später klassifiziert, um die Ergebnisse explorativ nutzen zu können.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
2.c. Modellberechnung und Themenbestimmung
Für das Training des Modells haben wir das Python-Paket tomotopy genutzt.5 Der wichtigste Parameter beim Training des LDA ist die Anzahl der zu findenden Themen. Dieser Prozess ist mit einigen Freiheitsgraden behaftet, der schließlich auf einer Interpretationsleistung der Forschenden basiert. In der Regel werden Themenmodelle mit einer Reihe von verschiedenen Themenzahlen trainiert und für jedes Thema wird eine Themenkohärenz berechnet. Anhand dieser wird abgeschätzt, wie viele Themen in etwa genügen, um das Themenspektrum im Korpus abzudecken. In diesem Trendreport haben wir uns auf die gesammelte Erfahrung aus dem vorherigen Trendreport verlassen und erneut 120 Themen verwendet. Der vollständigkeitshalber wird die Herangehensweise im folgenden Paragraph erneut beschrieben. Es wurden zwei gebräuchliche Metriken für die Modellkohärenz berechnet, welche im folgenden Graph zu sehen sind.6
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Kurven der Koherence geben dem Anwender einen Anhaltspunkt für die Bestimmung der Modellgüte zur Hand, aus dem sich in diesem Fall keine eindeutige Empfehlung ableiten lässt.7 Prinzipiell ist es bei einer großen Menge von Daten möglich, die Anzahl der Themen relativ frei zu wählen, mit dem naheliegenden Trade-Off zwischen potentiell unspezifischen Themen bei einer kleinen Anzahl von k und spezifischen, aber teilweise redundanten Themen bei großer Anzahl von k. Wir haben uns für die große Themenanzahl k=120 entschieden, da somit eine große Anzahl der aus substantieller Sicht erwartbaren Themen Niederschlag im Modell finden.8
Allerdings benötigt die qualitative Einordnung der Themen dementsprechend viel Zeit. Für diese wurden im Vier-Augen-Prinzip die 25 Wörter mit höchster Wahrscheinlichkeit und die 25 Wörter mit auf gesamtwordhäufigkeit-normierter Wahrscheinlichkeit betrachtet. Erstere zeigen die generelle Beschaffenheit des Themas, wobei zweitere die spezifischen Wörter zeigen, welche die Abgrenzung zu anderen Themen deutlich machen.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Bei der Verwendung von einem LDA-Themenmodell gilt es zu beachten, dass der Algorithmus keine Möglichkeit hat, Dokumente oder Wörter auszuschließen. Das heißt, jedes Dokument bekommt Themen und jedes Wort wird Themen zugeordnet. Zwangsläufig entstehen auch Wortverteilungen, welche sich nicht einem Thema im herkömmlichen Sinne zuordnen lassen, wie beispielsweise das Thema Sprache_Zeitangaben (siehe Wordclouds). Eine weitere Schwierigkeit sind überlappende Themen wie die zehn Themen rund um den Ukraine-Russland-Konflikt. Hier ist es für eine aussagekräftige Interpretation essentiell, eine sinnvolle Einordnung der Themen vorzunehmen. Dafür haben wir in einem iterativen Prozess die Themen in acht Themenkomplexe und 32 Oberthemen aufgeteilt.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Entwicklung aller Themen wird in folgender Grafik gezeigt:
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Für eine erste Einschätzung der Güte der Einteilung diente die Korrelationsmatrix zwischen den Wortwahrscheinlichkeiten der verschiedenen Themen. Die Achsen sind zur Übersichtlichkeit mit den Themenkomplexen gekennzeichnet. Jede Zeile zeigt die Korrelation für ein Thema mit allen anderen Themen. Ein weißer Punkt bedeutet vollständige Korrelation. Je dunkler der Punkt, umso weniger korrelieren die Themen. Es lassen sich Cluster von Themen erkennen, die uns bei der Einteilung als Stütze dienen können. Beispielsweise befindet sich etwa unten rechts auf der Diagonale das Thema Ukraine-Russland.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
2.d. Validierung der Themen
Die Erkennung eines Themas in einem Dokument ist instabil für kürzere Dokumente.9 Zur Annäherung an eine Stabilitätseinschätzung in Abhängigkeit von der Dokumentenlänge führten wir folgende Untersuchung durch:
-
- Auswahl eines zufälligen Samples von 25.000 Dokumenten mit einer Lemmata-Anzahl von über 100: Die Themenermittlung zu diesen Texten wird als korrekte Referenz gesehen, da der LDA für diese Textlänge sehr stabil ist.
- Wir betrachten verschiedene Textlängen von n = 10 bis 100 in Zehnerschritten: Es werden für jedes Dokument n Lemmata aus der jeweiligen Ursprungsmenge gesampelt. Für die entstehende Wortmenge wird ein Thema inferiert, so dass eine neue Themenzuweisung für die 25.000 Dokumente entsteht. Für ein stabiles Themenmodell sollte diese Zuweisung möglichst nahe an der Referenz aus Schritt 1 liegen.
- Zehnfache Wiederholung von Schritt 2 und Aggregation der Ergebnisse: Das resultierende Thema wird über den Modalwert ermittelt. Zusätzlich werden die Oberthemen und Themenkomplexe bestimmt, um zu sehen, ob das Thema in der weiter gefassten Definition noch erfasst wird. Schlussendlich wird die euklidische Distanz zwischen den Wortwahrscheinlichkeitsverteilungen des Referenzthemas und des gesampleten Themas ermittelt, welches als Abstandsmaß unabhängig von der Kategorisierung ist und daher verlässlicher.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Ellenbogenmethode legt nahe, dass die Anwendung des Modells für Texte ab der Lemmatalänge von 20 einen guten Trade-Off zwischen Dokumentenanzahl und dem zu erwartenden Fehler bei der Themenbestimmung kürzerer Texte darstellt. Bei den Themenkomplexen sind im Schnitt nur 16 Prozent Fehler bei dieser Dokumentenlänge zu erwarten. Vor dem Hintergrund, dass unsere Auswertung zumeist auf stark aggregierten Daten basiert, ist dieser Fehleranteil vertretbar.
Weiterhin interessant ist die Beobachtung, dass der Fehler selbst bei der gesampelten Dokumentenlänge von 100 bei zehn Prozent für die Hauptkategorien liegt. Dies verdeutlicht, dass selbst ausreichend lange Dokumente eine gewisse Unsicherheit in dem zugewiesenen Thema beinhalten. Indem die Anzahl der Fehlzuweisungen aggregiert und durch die Prävalenz geteilt wird, bekommen wir einen normierten Prozentfehler für die Kategorien.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Aggregiert ergeben sich für die Hauptkategorie folgende Fehlerprozente: Sonstiges 19,8%, Politik 11,5%, Weitere Themen 11,3%, Protestbewegung 10,5%, Weitere Themen 10,1%, Verschwörung 8,2%, Ukraine-Russland 6,9%, Corona 4,6% und Esoterik 3,3%. Der häufigste Fehler ist der Übergang von Sonstiges zu anderen oder umgekehrt. Dies ist ein nachvollziehbarer Fehler, da Sonstiges die Sprachmuster enthält und diese zu einem Teil in jedem Text vorzufinden sind. Insgesamt sind das gute Werte. Für die Interpretation sollte dennoch beachten werden, dass die Themen Politik und Protestbewegung im Vergleich zu inhaltlich klarer abgrenzbaren Themen eine höhere Fehlerquote mit sich tragen.
3. Analyse der Community Notes
3.a. Datenerhebung Community Notes
Ausgangspunkt unserer Analyse sind die frei zugänglichen Daten der Community Notes (CN) von X.10 Der Download erfolgt am 24.07.2025. Der komplette Datensatz von X umfasst 2.006.674 Community Notes, welche zwischen dem 28.01.2021 und 22.07.2025 verfasst wurden.
Aus dem Datensatz wurden mittels Spracherkennung 48.149 deutschsprachige Community Notes herausgefiltert. Für das Preprocessing wurden zunächst URLs und Sonderzeichen entfernt. Die Erkennung erfolgte dann mit dem Python-Paket lingua-language-detector.11 Bei der manuellen Durchsicht eines Samples (n=500) konnte nur eine falsch-positive Community Note (0,2%) in anderer Sprache ermittelt werden. Zur Kontrolle wurde eine weitere Sprachdetektion mit dem Paket Langdetect12 durchgeführt, aus welcher 48.942 deutschsprachige Community Notes resultieren. Davon sind 1.207 Notes nicht im ersten Sample enthalten. Bei manueller Durchsicht eines Samples von 100 der 1.207 zusätzlich erkannten Community Notes, konnten 10% als deutschsprachig identifiziert werden. 414 Community Notes wurden hingegen, in dem von uns verwendeten Sample, zusätzlich als deutschsprachig erkannt.
Die 48.149 deutschsprachigen Community Notes wurden als Referenzmenge für den Anteil der deutschsprachigen Community im Vergleich zu allen Community Notes auf der Plattform genutzt (siehe Abb. 5a im Fokus).
Diese deutschsprachigen Notes beziehen sich auf 32.148 Posts auf X. Davon waren 6.112 Posts zum Zeitpunkt der Datenanalyse bereits gelöscht, bzw. nicht mehr abrufbar. Zusätzlich wurden alle Posts und auch die dazugehörigen CNs aus den Daten entfernt, welche auf Grundlage der von Twitter durchgeführten Spracherkennung als nicht-deutschsprachig klassifiziert sind. Weiter wurden alle Posts aus dem Sample entfernt, zu denen keine Community mehr existiert, die den Post als “MISLEADING” adressiert. Dementsprechend reduzierte sich die Menge für alle weiteren Untersuchungen auf 22.545 Posts und 35.508 Community Notes.
Die Community Notes wurden von 7353 verschiedenen Usern verfasst. 3175 dieser AutorInnen haben nur eine einzige CN verfasst, während über 50% der Notes von nur 7% der User verfasst wurden.
1066 (3%) der Community Notes wurden als NOT HELPFUL bewertet und werden somit nicht angezeigt. 32.214 (91%) der Notes haben nicht genügend Stimmen erhalten und bleiben somit verborgen. Nur 2228 (6%) der Community Notes wurden final als HELPFUL eingestuft und werden somit dauerhaft angezeigt. Diese Zahlen beziehen sich auf den sogenannten lockedStatus.13
Die ausgewerteten Posts wurden von 5181 verschiedenen Accounts auf X verfasst. Der Datensatz der Community Notes enthält allerdings nur die IDs der annotierten Posts, weshalb wir mittels Scraping die einzelnen Posts aus der Weboberfläche von X abgerufen haben. Anschließend haben wir unsere Daten um die zusätzlichen Informationen zu Accountname, Followerzahl und Views der einzelnen Posts ergänzt.
3.b. Klassifikation von Akteuren
Neben den Community Notes sind auch die Posts in unserem Datensatz enthalten, die mit Community Notes versehen wurden (siehe oben). Da Posts mehr als eine Anmerkung bekommen können, ist die Gesamtzahl der Posts nicht gleich der Gesamtzahl der Notes. Insgesamt haben 22.545 Posts von 5181 verschiedenen Accounts auf X mindestens eine Note erhalten. Um zu untersuchen, welche Akteure besonders häufig Notes erhalten haben, wurden alle X-Accounts, die zehn oder mehr Posts veröffentlicht haben, die wiederum je eine oder mehr Community Notes erhalten haben, hinsichtlich Akteurstyp und Parteizugehörigkeit bzw. ideologischer Ausrichtung kategorisiert (n=429). Von diesen 429 X-Accounts stammen 59,6 Prozent aller Posts im Datensatz. Die Kategorisierung erfolgte zweistufig. In einem ersten Schritt wurden die Accounts mit der Datenbank öffentlicher Sprecher14 abgeglichen und die Angaben von dort vorhandenen Accounts übernommen (n=122). Bei diesen Accounts, die nicht aus dem Bereich Politiker*innen/Parteien waren, erfolgte die ideologische Kategorisierung manuell mit dem zweiten Schritt. Die verbleibenden 307 Accounts wurden im zweiten Schritt manuell hinsichtlich Typ und Ideologie ausgewertet.
Die Erhebung des Akteurstyps erfolgte über zwei Variablen (Haupt- und Unterkategorie), die ideologische Ausrichtung bzw. Parteizugehörigkeit über eine weitere Variable. Das Erhebungsschema wurde weitestgehend übernommen von Bühling & Heft (2023).15 Die Erhebung erfolgte durch zwei Codierer*innen, die in einem ersten Testdurchgang (n=50 Accounts) eine Übereinstimmung von 76 Prozent bzw. einen Reliabilitätswert von Cohen’s 𝜅=0,67 bzw. 0,66 bei der Variable Akteurstyp (Hauptkategorie) und bei der Parteizugehörigkeit erreichten (siehe Tabelle). Nach einem weiteren gemeinsamen Training erfolgte die Erhebung der Daten. N=10 Accounts konnten keinem Typ zugeordnet werden, n=3 Accounts konnten bei der ideologischen Zuordnung nicht berücksichtigt werden, da sie nicht mehr verfügbar waren.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Reliabilitätswerte für die Codierungen der zwei MitarbeiterInnen je Variable.
3.c. Klassifikation von Quellen
Zur automatisierten Extraktion von Quellen aus den Texten der Community Notes haben wir zunächst das Python-Paket URLExtract16 verwendet. Die Identifikation einer Quelle basierte hierbei auf der angegebenen Top-Level-Domain. Anschließend haben wir noch sogenannte Short-Links und andere Formen der Weiterleitung aufgelöst. Insgesamt wurden so 4286 Domains extrahiert. Alle Domains, die mindestens drei Mal als Quelle verwendet wurden (n=1126), wurden anschließend manuell von zwei Personen in elf verschiedene Kategorien eingeordnet: (1) Wikipedia / Wikimedia; (2) Statistik & Wissen; (3) Social Media & Onlinedienste; (4) Behörden, Verwaltung & internationale Institutionen; (5) Nachrichten & Medien; (6) Blogs & Private Internetseiten; (7) Unternehmen & Wirtschaft; (8) Wissenschaft & Forschung; (9) Politische Parteien; (10) Vereine, Stiftungen & NGO; (11) Sonstiges. Quellen in den drei Kategorien (4), (5) und (8) wurden zudem noch in eine der jeweils vier, neun bzw. drei Unterkategorien eingeordnet: (41) Deutsche Behörden, Verwaltung & Legislative; (42) Nicht-deutsche staatliche Institutionen; (43) Internationale Organisationen & Institutionen; (44) Öffentlich-rechtliche Institutionen; (51) Öffentlich-rechtlicher Rundfunk; (52) Zeitungen & Magazine; (53) Online-Medien; (54) Fact Checks; (55) Special Interest Medien; (56) Alternativmedien; (57) Nicht-deutschsprachige Medien; (58) Nachrichtenagenturen; (59) Fernsehen und Rundfunk (privat); (81) Universitäten; (82) Außeruniversitäre Forschung; (83) Wissenschaftliche Journals & Magazine.
3.d. Klassifikation von Community Notes
Um besser einschätzen zu können, inwiefern Community Notes selbst den Anspruch haben, zur Genauigkeit von Informationen (in den Worten von X: accuracy of information) beizutragen, haben wir eine Stichprobe (N=452) aus veröffentlichten und nicht-veröffentlichten Community Notes gezogen und sie hinsichtlich verschiedener Typen der Community Notes untersucht. Hierbei haben wir zunächst induktiv Kategorien festgelegt und definiert.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Definitionen von Typen der Community Notes.
In der Folge haben wir zwei Studentinnen in der Eingruppierung der ausgewählten Posts/CN geschult und verschiedene Testfälle diskutiert. Hierzu haben wir folgende Codieranleitung gegeben. Zunächst sollte entschieden werden, ob der Ursprungs-Post eine Community Note nötig hat. Sofern im Post eine Meinung geäußert wird und auf diese mit einer reinen Gegenmeinung geantwortet wird, fällt diese Community Note in die Kategorie → Opinion Note. Ist dies nicht der Fall, sollten die Kodiererinnen darauf achten, ob die Community Note sich auf eine andere Community Note beziehen könnte und diese auf die Regeln der Community Notes hinweist. Viele diese → Housekeeping Notes werden mit einem NNN (Note Not Needed) gekennzeichnet. Ist dies nicht der Fall und wird vom Thema abgelenkt, beleidigt oder jenseits der ursprünglichen Aussage reagiert, fällt die Wahl auf Any Other Note. Sofern die Kodiererinnen entschieden, dass eine Prüfung des Ursprungstweets zulässig ist, ist die Frage, ob ein Fakt widerlegt (→ Fact Note) oder wichtiger Kontext hinzugefügt wird (→ Context Note). Werden Fakten genutzt, um nur eine eigene Meinung zu transportieren: → Opinion Note. Mehrfachkodierungen waren möglich.
In 64 % der Fälle stimmten die Codierungen in allen Variablen vollständig überein. Für die Kategorie Housekeeping Note konnte eine sehr gute, für Fact Note eine zufriedenstellende Übereinstimmung zwischen den Codiererinnen erreicht werden (siehe Tabelle). Aufgrund der geringen Reliabilität in den anderen drei Kategorien wurde in Fällen, in denen einzelne oder mehrere Differenzen zwischen den Codierungen der Studentinnen bestanden, diese durch die wissenschaftliche Leitung bewertet und aufgelöst.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
3.e. Themenmodell
Die Themen in den Posts und zugehörigen CN wurden automatisiert erhoben und anschließend manuell interpretiert, benannt und in Themenbereiche eingruppiert (siehe unten). Es wurde ein mehrstufiger Ansatz unter Verwendung des BERTopic-Frameworks17 eingesetzt. Das Framework basiert dabei strukturell auf drei Subprozessen:
- Embedding: Transformers-basierte Satz-Embeddings, um Text in Vektorrepräsentationen zu überführen, welche semantische Ähnlichkeiten erhalten. Dafür wurde das Modell paraphrase-multilingual-mpnet-base-v218 verwendet aufgrund seiner guten Performance bei deutschsprachigen Texten. Zudem erzielt es auch bei mehrsprachigen Texten, wie in Social Media Daten oft gegeben, zuverlässige Ergebnisse.
- Dimensionalitätsreduktion: Verdichtung der Text-Embeddings für das Clustering mittels Projektion der hochdimensionalen Daten in niedrigere Dimensionen. Als Algorithmus wurde hierfür UMAP (Uniform Manifold Approximation and Projection)19 verwendet.
- Clustering: Zur Erkennung von Clustern innerhalb der verdichteten Daten wurde der HDBSCAN Algorithmus verwendet. Anders als bei der klassischen Alternative k-Means muss nicht vorab die Clusterzahl definiert werden und es werden weniger strukturelle Annahmen an die Form der Cluster gestellt.
Da Post-Texte häufig kurz und ohne weiteren Kontext schwer thematisch zu bestimmen sind, wurden zusätzlich folgende Informationsquellen akquiriert: (1) Bildbeschreibung zu eingebetteten Medien, (2) Inhalt von verlinkten Webseiten,20 (3) Zitierte Posts, (4) Community Note, und (5) Text der Quellen in Community Notes.
Waren verschiedene Informationen für einen Post vorhanden, wurden diese konkateniert, wobei die Basiseinheit jeweils der Post und nicht die Community Note war. Da davon auszugehen ist, dass die Quellen unterschiedliche Wichtigkeit in Bezug auf die Bestimmung eines Themas haben, wurden die Embeddings erst einzeln erstellt und dann die Gewichtung innerhalb eines vereinheitlichten Embeddings über Fusion-Parameter festgelegt, welche zusammen mit den Modellparameter für HDBSCAN und UMAP dann evaluiert wurden. Anstelle einer vollständigen Grid Search über alle möglichen Parameterkombinationen wurde ein stochastisches Sampling durchgeführt. Dabei wurden zufällig gezogene Kombinationen der Gewichtungsfaktoren für die Textquellen sowie der UMAP- und HDBSCAN-Hyperparametern getestet („Random Search“). Dieses Vorgehen erlaubt es, den Parameterraum effizient zu explorieren, ohne die Rechenkosten einer vollständigen Grid Search in Kauf nehmen zu müssen, während es dennoch eine hohe Wahrscheinlichkeit bietet, gut geeignete Konfigurationen zu identifizieren.
Um die Vergleichbarkeit zwischen den auf verschiedenen Parameterkonstellationen entstehenden Themenmodellen zu gewährleisten, wurden folgende Bewertungsmetriken erhoben:
- Kohärenz (coherence): semantische Konsistenz innerhalb eines Themas.
- Diversität (diversity): Anteil eindeutiger Wörter über alle Themen.
- Silhouette-Score: Clusterdichte und Trennbarkeit.
- Intra- vs. Inter-Cluster-Similarität: Differenz innerhalb von und zwischen Clustern.
- Noise-Ratio: Anteil der Datenpunkte, die keinem Cluster zugeordnet werden.
- Themenanzahl: Indikator für die Granularität der Themen und Themenbalance.
- maximale Clustergröße: Indikator für die Themenbalance.
Aufgrund des Ziels, möglichst große Teile der Daten mit Hilfe des Themenmodells beschreiben zu können, wurde eine Threshold von maximal 40 Prozent als Noise gekennzeichneten Posts definiert. Innerhalb dieser wurde die Kohärenz als führende Metrik verwendet und die anderen Metriken nur zur Verifikation mitgeführt.
Das Ergebnis des Themenmodells waren n=197 einzelne Themen, denen 67,78 Prozent aller Posts zugeordnet wurden. Die anderen 32,22 Prozent der Posts wurden als Noise gekennzeichnet. Die einzelnen Themen wurden anschließend von zwei Personen manuell mit aussagekräftigen Stichworten gelabelt, anhand der 15 Posts und zugehörigen Community Note, die mit der höchsten Wahrscheinlichkeit vom Themenmodell dem Thema zugeordnet wurden. In einem weiteren Schritt wurden die einzelnen Themen zu Themengruppen zusammengefasst, die induktiv aus dem Material gebildet wurden, und die Zuordnung ein weiteres Mal an den Beispielposts geprüft. Daraus entstanden 15 Themengruppen mit insgesamt 173 einzelnen Themen (entspricht 57,02 Prozent der Posts). Die 24 weiteren Themen (entspricht 1,08 Prozent der Posts) konnten nicht eindeutig benannt oder keiner der Themengruppen zugeordnet werden.
3.f. Regressionsanalyse
Für die Analyse statistischer Zusammenhänge haben wir das Sample deutschsprachiger Community Notes und dazugehöriger Posts erneut reduziert. Konkret haben wir nur solche Community Notes ausgewertet, welche ohne weitere konkurrierende Note einen Post adressieren, um eindeutige Zusammenhänge identifizieren zu können. Dieses Sample umfasst 18.500 deutschsprachige Community Notes. Um den Einfluss verschiedener Faktoren auf die Bewertung und Veröffentlichung von Community Notes schätzen zu können, wurden Generalized Linear-Mixed Effects Models auf den Daten angewendet.21 Die abhängigen Variablen bildeten dabei:
- die Anzahl der abgegebenen Bewertungen
- die Veröffentlichung einer Note (bzw. Bewertung als „hilfreich“)
- Veröffentlichung weiterer Community-Notes
Alle Modelle enthalten Zufallsinterzepte auf der Ebene der X-NutzerInnen, um individuelle Heterogenität zwischen Usern zu berücksichtigen.
3.f.1. Anzahl an abgegebenen Stimmen
Im Mittel wurden die Community Notes in unserem Datensatzes 48.96 Mal (78.97 SD) von Usern bewertet. Die Standardabweichung übersteigt das arithmetische Mittel, was eine rechtsschiefe Verteilung der Daten indiziert. Dieser für Zählvariablen häufige Verteilung wurde durch die negativ-binomiale Modellierung Rechnung getragen, um die Overdispersion zu berücksichtigen.
- M0: Zufallsinterzept (X-User).
- M1: Hinzunahme von Post-Eigenschaften (Zeitdifferenz, Views).
- M2: Erweiterung um individuelle Merkmale (Follower, Akteursideologie).
Hohe View-Zahlen und geringere Zeitdifferenzen bis zur Erstellung der Note waren stark positiv mit der Zahl der Bewertungen assoziiert. Akteure aus ökologischen und sozialistischen Milieus erhielten signifikant mehr Bewertungen als die Referenzgruppe der User, die keine offensichtliche politische Affiliation hatten.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
3.f.2. Veröffentlichung von Community Notes
Die Wahrscheinlichkeit, dass eine Note als hilfreich bewertet wurde, wurde mithilfe logistischer gemischter Modelle untersucht.
- M0: Zufallsinterzept (X-User).
- M1: Hinzunahme von Note-Eigenschaften (Anzahl abgegebener Bewertungen).
- M2: Erweiterung um individuelle Prädiktoren (z. B. Followerzahl und ideologische Kategorisierung des Akteurs).
Die Wahrscheinlichkeit das eine Community Note als hilfreich veröffentlicht war insbesondere für ökologische, liberale und christdemokratische Akteure signifikant geringer als für die Referenzgruppe („nicht/anderweitig zuordenbar“).
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Berechnete Wahrscheinlichkeiten einer Hilfreich-Bewertung nach Ideologie des Akteurs.
3.f.3. Wahrscheinlichkeit erneuter Community Notes-Autorenschaft
Zur Untersuchung der Faktoren langfristiger Motivation – also der Wahrscheinlichkeit, dass Nutzer:innen nach einer Community Note eine weitere verfassen – wurde ein logistisches gemischtes Modell geschätzt.
- M0: Zufallsinterzept (X-User).
- M1: Hinzunahme, ob die vorherige Note als hilfreich bewertet wurde.
- M2: Erweiterung um die Gesamtzahl der bisher verfassten Notes.
Während „Hilfreich“-Bewertungen allein keinen signifikanten Effekt zeigten, war die Gesamtzahl der bisherigen Notes stark positiv mit der Wahrscheinlichkeit weiterer Aktivitäten assoziiert.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
3.g. Limitationen
Die Untersuchung weist Limitationen auf. Zum einen birgt die Eingrenzung des Datensatzes mittels Spracherkennung eine gewisse Fehleranfälligkeit. Darüber hinaus waren etwa 19 Prozent der Posts, die mit Community Notes versehen wurden, zum Zeitpunkt der Datenerhebung nicht mehr verfügbar und konnten in den meisten Auswertungen nicht berücksichtigt werden. Aufgrund des stark beschränkten Datenzugangs bei X konnten zudem keine weiteren Daten erhoben werden, die einen Vergleich zwischen den mit CN versehenen und anderen Posts der Grundgesamtheit (deutschsprachige X-Inhalte) erlaubt hätten. Das betrifft insbesondere die Auswertung der Posts und Accounts hinsichtlich Themen und Akteurstyp sowie Ideologie.
- Kilian Buehling & Annett Heft, »Pandemic Protesters on Telegram: How Platform Affordances and Information Ecosystems Shape Digital Counterpublics«, in: Social Media + Society, Nr. 3, Jg. 9 (2023), online hier.
- Annett Heft, Eva Mayerhöffer u.a, »Beyond Breitbart: Comparing Right‐Wing Digital News Infrastructures in Six Western Democracies«, in: Policy & Internet, Nr. 1, Jg. 12 (2020), S. 20-45, online hier.
- Siehe online hier. Dabei wurde die Sprachvorhersage nur akzeptiert, wenn das Attribut reliable den Wert True vorwies. Um eine potentiell zu restriktive Filterung zu erkennen, wurden zufällig 500 aus den herausgefilterten Texten gezogen und manuell geprüft. Davon waren fünf fälschlicherweise aussortiert. Diese Fehlerquote stellt kein Problem für die Ergebnisse des LDAs dar. Mögliche Falsch-Positive wurden nicht überprüft.
- Siehe online hier.
- Siehe online hier.
- u_mass misst die paarweise Kookkurrenz in Dokumenten des Korpus von den Top-n der wahrscheinlichsten Wörtern zu jedem Thema. Ein höherer Wert ist besser. c_uci misst die Kookkurrenz in einem wandernden Fenster. Ein höherer Wert ist besser.
- Die Themenmodelle wurden aus Kapazitätsgründen lediglich einmal trainiert. Mit mehreren Durchläufen würde sich Dellen in der Kurve ausbessern lassen. Dies würde allerdings keine andere Schlussfolgerung nach sich ziehen.
- Als Beispiele seien Verschwörung_Great_Reset und Migration genannt.
- Eine Daumenregel besagt, dass LDAs bei etwa 50 Wörtern stabil sind. Durch das durchgeführte Preprocessing ist die durchschnittliche Information pro Wort höher, so dass 20-30 Wörter der Daumenregel entsprechen würden.
- https://x.com/i/communitynotes/download-data.
- https://github.com/pemistahl/lingua-py.
- https://github.com/Mimino666/langdetect.
- Der Status einer Community Note wird nach 2 Wochen gelockt, während er vorher noch wechseln kann. Wir haben dementsprechend nur Notes in unsere Analyse einbezogen, bei denen dieser Status bereits festgelegt ist.
- Schmidt, Jan-Hinrik/Merten, Lisa/Münch, Felix V. (2023): Die „Datenbank Öffentlicher Sprecher“ (DBÖS). Juni 2023. Online verfügbar: https://doi.org/10.17605/OSF.IO/SK6T5.
- Buehling, K., & Heft, A. (2023). Pandemic Protesters on Telegram: How Platform Affordances and Information Ecosystems Shape Digital Counterpublics. Social Media + Society, 9(3). https://doi.org/10.1177/20563051231199430 (Original work published 2023).
- https://github.com/lipoja/URLExtract.
- “BERTopic: Neural topic modeling with a class-based TF-IDF procedure”. Maarten Grootendorst, 2022, online verfügbar: https://arxiv.org/abs/2203.05794.
- https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2.
- “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction”. McInnes et al, 2018, online verfügbar: https://arxiv.org/abs/1802.03426.
- Aufgrund der Diversität der verschiedenen Quellen haben wir bis zur Auswertung nur für 26,3% der insgesamt 48.436 verlinkten Inhalte den Text extrahieren können.
- Verwendung findet hierbei das R-Paket lme4, https://cran.r-project.org/web/packages/lme4/index.html.