Erläuterung des methodischen Vorgehens (MATR Nr. 9)
1. Zur Genese der Telegram-Netzwerke
Das Monitoring von Machine Against the Rage (MATR) auf Telegram geht von einem akteursbasierten Ansatz aus. Das heißt, dass relevante digitale Sphären für demokratiefeindliche Kommunikation über eine Vorklassifizierung von identifizierbaren Akteuren eingegrenzt werden. Sie dienen als Startpunkte für die Sichtung breiterer Dynamiken und als Knotenpunkte für Protestmobilisierung. Ausgehend von einem Set von 269 qualitativ durch zwei Expert*innen klassifizierten Akteuren, die im öffentlichen Diskurs durch ihre Agitation Sichtbarkeit erhalten haben, wurden Charakteristika wie ideologische Ausrichtung auf Grundlage des Kommunikationsverhaltens und der bekannten Offline-Positionierungen der Akteure sowie Formen der Organisierung festgelegt, um das Feld zu sondieren. Zudem wurde die Verbindung zu breiteren Netzwerken markiert, bspw. im Falle von reichweitenstarken Accounts, die für breitere Bewegungen sprechen. Ausgehend von dieser manuellen Einordnung, die durch eine externe Expertise von Karolin Schwarz vorgenommen und von den Mitarbeitenden von MATR geprüft worden ist, wurde ein automatisiertes, mehrstufiges Snowball-Sampling auf der Plattform Telegram durchgeführt.
1.a. Klassifizierung der Akteure
Aus dem Snowball-Sampling wurden für die Plattform Telegram 4.827 öffentlich kommunizierende Kanäle und Gruppen – im folgenden beides unter »Accounts« zusammengefasst – aufgenommen, die sich durch Weiterleitungen von plattforminternen Beiträgen in das Netzwerk einfügen. Bei Telegram haben Kanäle eine einseitige Richtung der Kommunikation (One-to-Many-Kommunikation), während in Gruppen sich jede mit jedem per Chat austauschen kann. Letztere sind in ihrer Ausrichtung divers, weswegen sie zur besseren Analyse ein weiteres Mal klassifiziert wurden, um eine Einordnung über die ideologische Ausrichtung und Verschiebung ihrer Positionierung im Diskurs treffen zu können. Hierzu wurden Accounts anhand ihrer Subscriber und Zentralität im Netzwerk sortiert und die ersten 1.400 auf ihr Kommunikationsverhalten geprüft. Hinzu kommen weitere Accounts, welche im journalistischen oder wissenschaftlichen Diskurs bereits behandelt wurden. Die qualitative Einordnung der Accounts in zuvor definierte Kategorien (s.u.) umfasste den Einblick in die letzten 20 Posts und die 20 zuletzt geteilten Links des Kanals und wurde durch das Fachwissen der Expert*innen von MATR abgeglichen. Zudem wurden Kanäle, die sich in ihrer Selbstbeschreibung oder über die Nutzung einschlägiger Codes der Querdenken-Bewegung oder dem QAnon-Verschwörungskult zuordnen, in die jeweiligen Kategorien eingeordnet. Ähnliches gilt für Reichsbürger, die einen markanten Außenauftritt haben. Die Klassifizierung soll in der Zukunft weiter ausgebaut werden. Bezugnehmend auf bestehende Forschungsliteratur wurden in einer idealtypischen Klassifizierung die folgenden Ober- und Unterkategorien unterschieden:
Rechtsextremismus:
- Neonazismus: Dessen Anhänger*innen zeichnen sich durch einen positiven Bezug auf den Nationalsozialismus und ein rassistisch strukturiertes Weltbild aus. Viele Anhänger sind Teil von Subkulturen, in denen über Musik, Kampfsport und Hooliganismus ein Zugang zu neonazistischem Gedankengut geliefert wird.
- Reichsbürger: Eine Gruppe von Menschen, die davon ausgeht, dass das Deutsche Reich nie aufgelöst wurde und die immer noch bestehende legitime Herrschaftsform sei. Die bundesdeutsche Demokratie habe keine repräsentative Funktion, sei nicht souverän, sondern von fremden Mächten gesteuert.
- Extreme Rechte: Organisationaler Zusammenhang, der die liberale Demokratie abschaffen will. Ihre Ideologie beruht auf Ungleichwertigkeit und Autoritarismus.
- Neue Rechte: Ein strategisch denkender Kreis rechtsextremer Aktivist*innen, die über kulturelle Aktivitäten politische Macht aufbauen wollen. Ihre Wortführer*innen inszenieren sich als ideologische Vordenker*innen. Parteien und Bewegungen werden von ihren Vertreter*innen strategisch beraten.
- Populistische Rechte: Eine Sammelkategorie, in der islamfeindliche und rassistische Akteure mit einem rechten Weltbild eingeordnet werden. Es wird das ehrliche Volk gegen eine korrupte Elite gestellt. Das System soll aber demokratisch umgestürzt werden.
Konspirationismus:
- Verschwörungsideologie: Eine Oberkategorie für Akteure, die den Lauf der Geschichte durch eine Aneinanderreihung von Verschwörungen versteht, weshalb prinzipiell alles hinterfragt wird und ein schlichtes Freund-Feind Bild entsteht. Das Verschwörungsdenken übersetzt sich in politische Mobilisierung.
- Corona-Desinformation: Umfasst Akteure, die im Kontext der Corona Pandemie mit skeptischen oder leugnerischen Positionen in den öffentlichen Diskurs treten. Sie nutzen ihre öffentlichen Kanäle meist monothematisch.
- Esoterik: Eine weltanschauliche Strömung, die durch Heranziehung okkultistischer, anthroposophischer sowie metaphysischer Lehren und Praktiken auf die Selbsterkenntnis und Selbstverwirklichung des Menschen abzielt.
- QAnon: Meint einen verschwörungsideologischen Kult, der sich um falsche Behauptungen dreht, die von einer anonymen Person (bekannt als »Q«) aufgestellt wurden. Ihre Erzählung besagt, dass satanische, kannibalistische Eliten einen globalen Ring für systematischen Kindesmissbrauch betreiben. Entstanden während Trumps Präsidentschaft wird von einem tiefen Staat ausgegangen, der die Regierung kontrolliere.
- Querdenken: Mitglieder und Sympathisant*innen einer Bewegung, die sich im Kontext der Proteste gegen die Covid-19-Pandemie gegründet hat und Zweifel an der Rechtmäßigkeit der Maßnahmen zur Eindämmung mit einer radikalen Kritik an demokratischen Institutionen verbindet.
- Anti-Mainstream-Gruppen: Ohne klare Zielsetzung. Sie setzen ihre Akzente alternierend zu dem, was als stark grün geprägter Mainstream wahrgenommen wird, und haben sich oft aus Querdenken-Gruppen heraus entwickelt.
Sonstiges:
- Russischer Imperialismus: Insbesondere russische Akteure, die den Aufbau eines russischen Reichs propagieren und den Krieg in der Ukraine befürworten.
- Pro-russische Propaganda: Kanäle, die pro-russische Propaganda betreiben und einseitig über den Krieg in der Ukraine berichten.
- Prepper: Eine Gruppe Personen, die sich mittels individueller oder kollektiver Maßnahmen auf verschiedene Arten von Katastrophen vorbereiten und nicht selten Phantasien des Umsturzes pflegen.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der kategorisierten Kanäle in Ideologie und Ideologiegruppe. Die Farbgebung wird nach Möglichkeit in allen visuellen Elementen beibehalten.
Viele der identifizierten Kanäle lassen sich mehreren Kategorien zuordnen. So ist es nicht leicht, Verschwörungsideologien von rechtsextremen Netzwerken zu isolieren. Auch pflegen lokale Ausprägungen bestimmter Bewegungen unterschiedliche Bündnispolitiken oder nutzen bestimmte Affiliationen, um sich einem öffentlichen Stigma zu entziehen. Ausschlaggebend für die Klassifizierung war ein kumulatives Verfahren, wonach geprüft wurde, ob Akteure, die Verschwörungsmythen teilen, auch offensichtlich mit rechtsextremen Accounts verbunden sind. Ist dies der Fall, fällt die Entscheidung auf die extrem rechte Kategorie. Wenn allerdings bekannt ist, dass bspw. einzelne Influencer sich stärker ein eigenes verschwörungsideologisches Profil aufbauen, um sich von organisierten rechtsextremen Strukturen zu distanzieren oder eine bestimmte Verschwörungstheorie besonders prägnant ist, wird hier eine Unterkategorie des Konspirationismus gewählt. Um einen individuellen Bias zu reduzieren wurden die 269 Seed-Accounts von zwei Expert*innen gemeinsam kategorisiert. 145 Accounts wurden von der weiteren Auswertung ausgeschlossen, da sie nicht in das potenziell demokratiefeindliche Spektrum gehören.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Anzahl der betrachteten Nachrichten nach der Ideologie der Kanäle und Gruppen für den Zeitraum dieses Trendreports.
Die Anzahl der Nachrichten pro Ideologie ist sehr heterogen. QAnon und andere Verschwörungsideologen senden sehr viel mehr Nachrichten als andere Ideologien.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Auf der X-Achse sind die Anzahl der Kanäle, welche von groß nach klein geordnet waren. Auf der Y-Achse ist der kumulierte Anteil der Gesamtnachrichten von den Top-X-Kanälen. Zum Beispiel: Die Top-5 der Reichsbürger-Kanäle sind für 50% der Nachrichten verantwortlich.
Neben der Anzahl der Nachrichten ist es für die Interpretation der Datenauswertung interessant, welcher Anteil der Nachrichten sich auf wenige Kanäle konzentriert. Den Ideologien Prepper und Russischer Imperialismus sind nur wenige unserer Kanäle zuzuordnen, daher können auch nur begrenzt Aussagen für die Gruppen getroffen werden. Bei Reichsbürgern, Neue Rechten und pro-russischer Propaganda werden über 70% der Nachrichten von den 10 Top-Kanälen gesendet. Die Dominanz dieser Akteure wird bei Datenauswertungen beachtet: zum Beispiel wird für ausgewählte Analysen der zusammengefasste Rechtsextremismusbereich betrachtet.
1.b. Analyse der Kommunikationsnetzwerke im Untersuchungszeitraum
Um die Kommunikationsnetzwerke auf Telegram im Untersuchungszeitraum, also von Dezember 2024 bis Februar 2026, zu analysieren und die Interaktionen der jeweiligen Akteursgruppen darzustellen, haben wir ein cross-sektionales Chord-Diagram erstellt. Dieses zeigt das Weiterleitungsverhalten der oben genannten politische Milieus in absoluten Zahlen ohne Berücksichtigung endogener Effekte. Netzwerkknoten sind hier die jeweiligen Milieus aggregiert.
Darüber hinaus haben wir ein Netzwerkinstanz gebildet, um auch das Weiterleitungsverhalten auf Akteursebene darstellen und analysieren zu können. Die individuellen Akteure wurden nach ihrer Ideologie eingefärbt und Verbindungen stellen deren Weiterleitungen von Telegraminhalten dar. Akteure, die wir nicht klassifiziert haben, bzw. die für uns von nachgelagertem Interesse sind, sind anonymisiert und grau hinterlegt.
1.c. Nachrichten zum Fall Epstein
Für die Analyse zum Fall Epstein wurden alle Nachrichten aus unserem Monitoring vom 01. Januar 2019 bis zum 28. Februar 2026 berücksichtigt. Weiter wurden nur Nachrichten aus Kanälen eingeschlossen, die bezüglich ihrer Ideologie in die Oberkategorien Konspirationismus, Rechtsextremismus und Sonstiges fallen und mindestens teilweise deutschsprachig sind. Außerdem wurden Chatgruppen nicht berücksichtigt, so dass insgesamt 1.818 Kanäle einbezogen wurden. Anschließend wurden alle Nachrichten gefiltert, welche das Stichwort Epstein beinhalten. Ein Sonderfall wurde hierbei berücksichtigt: Die Kombination der Wörter Epstein und Barr in verschiedenen Schreibweisen wurde ausgeschlossen, um Nachrichten mit Bezug zum Epstein-Barr-Virus zu ignorieren. Insgesamt ergeben sich als Datengrundlage 112.216 Nachrichten aus 1.109 Telegram-Kanälen.
2. Zur Genese der Themenmodelle
Im Gegensatz zu unseren Auswertungen in der Vergangenheit, haben wir in dieser Ausgabe auf ein universelles Themenmodell verzichtet und nur die Themen in Nachrichten mit Bezug zum Fall Epstein bestimmt.
2.a. Algorithmus
Die Themen in den Nachrichten wurden zunächst automatisiert erhoben und anschließend manuell interpretiert. Es wurde ein mehrstufiger Ansatz unter Verwendung des BERTopic-Frameworks1 eingesetzt. Das Framework basiert dabei strukturell auf drei Subprozessen:
- Embedding: Transformers-basierte Satz-Embeddings, um Text in Vektorrepräsentationen zu überführen, welche semantische Ähnlichkeiten erhalten. Dafür wurde das Modell intfloat/multilingual-e5-base2 verwendet, welches über 12 Layer und 768 Embedding-Dimensionen verfügt. Es ist relativ robust gegenüber unsauberen Texten, da es auf Web- und Retrieval-Daten trainiert wurde und erzielt auch bei mehrsprachigen Texten, wie in den Telegram-Nachrichten oft gegeben, zuverlässige Ergebnisse.
- Dimensionalitätsreduktion: Verdichtung der Text-Embeddings für das Clustering mittels Projektion der hochdimensionalen Daten in niedrigere Dimensionen. Als Algorithmus wurde hierfür UMAP (Uniform Manifold Approximation and Projection)3 verwendet.
- Clustering: Zur Erkennung von Clustern innerhalb der verdichteten Daten wurde der HDBSCAN Algorithmus verwendet. Anders als bei der klassischen Alternative k-Means muss nicht vorab die Clusterzahl definiert werden und es werden weniger strukturelle Annahmen an die Form der Cluster gestellt.
2.b. Datengrundlage und Preprocessing
Datengrundlage sind die in Abschnitt 1.c genannte Menge an Nachrichten, abzüglich durch Weiterleitungen entstandener Duplikate, insgesamt 49.727 eindeutige Nachrichten. Weiter wurden ausschließlich deutschsprachige Nachrichten4 einbezogen, was den Umfang auf 41.673 Nachrichten reduzierte. Anschließend wurde eine mehrstufige Preprocessing-Pipeline angewendet:
- Normalisierung von Unicode-Zeichen mittels Normal Form Compatibility Composition
- Filtern von URLs, Emailadressen, langen Zahlensequenzen, diversen Sonderzeichen, Piktogrammen, HTML-Tags und Emojis
- Mehrere aufeinander folgende Zeichen, wie Ausrufezeichen, Fragezeichen, Binde- und Unterstriche wurden durch ein einzelnes Zeichen ersetzt
- Typische Footer-Texte wurden identifiziert und soweit möglich entfernt
- Nachrichten mit weniger als 5 Wörtern wurden entfernt
- Überführung des Textes in Tokens mittels AutoTokenizer aus der Transformer-Bibliothek angewendet
Anschließend wurden die Nachrichten in mehrere Chunks gesplittet, wobei insbesondere Satzzeichen und Zeilenumbrüche berücksichtigt wurden. Als minimale Länge wurden 40 und als maximale Länge 120 Token gewählt. So wird sichergestellt, dass auch feinere Subthemen erfasst werden, und damit mehrere Themen pro Nachricht, obwohl das Kontextfenster des Embedding-Modells größer ist. Nach einer vorläufigen Auswertung ergaben sich im Mittel 71 Token pro Chunk. Der Median liegt bei 68 Token, die Standardabweichung bei 26,5.
2.c. Modellberechnung
Eine besondere Herausforderung liegt im der Bestimmung geeigneter Modellparameter für das Clustering und die Dimensionalitätsreduktion. Anstelle einer vollständigen Grid Search über alle möglichen Parameterkombinationen wurde ein stochastisches Sampling durchgeführt. Dabei wurden zufällig gezogene Kombinationen der Gewichtungsfaktoren für die UMAP- und HDBSCAN-Hyperparametern getestet. Um die Vergleichbarkeit zwischen den auf verschiedenen Konstellationen entstehenden Modellen zu gewährleisten, wurden folgende Bewertungsmetriken erhoben:
- Kohärenz (coherence): semantische Konsistenz innerhalb eines Themas
- Silhouette-Score: Clusterdichte und Trennbarkeit
- Noise-Ratio: Anteil der Datenpunkte, die keinem Cluster zugeordnet werden
- Themenanzahl: Indikator für die Granularität der Themen
- Maximale Clustergröße: Indikator für die Themenbalance
Aufgrund des Ziels, möglichst große Teile der Daten mit Hilfe des Themenmodells beschreiben zu können, wurde ein ausgewogenes Verhältnis von Noise, Trennschärfe und der Themenzahl angestrebt. Nach der Kalibrierung ergaben sich zunächst 597 Themen mit einer Quote von 48% Ausreißern, wodurch 70% der Nachrichten mindestens einem Thema zugeordnet werden konnten. Der Silhouette-Score lag zunächst bei 0,47. Anschließend wurden einige Outlier automatisiert zugeordnet, wodurch sich deren Zahl auf 29% reduzierte. Dadurch konnten 89,8% der Nachrichten mindestens einem Thema zugeordnet werden. Der Silhouette-Score liegt mit 0,2 noch im akzeptablen Bereich.
2.d. Themenbestimmung
Da nur bestimmte Narrative im Kontext des Falls Epstein von Interesse waren, begünstigte die feingliedrige Struktur der Themen ein kombiniertes Verfahren von manueller Sichtung und automatisierter Themenzusammenlegung. Durch zwei KodiererInnen wurden relevante Themen identifiziert und anschließend kategorisiert. Basierend auf 79 Themen aus der Modellierung ergaben sich 7 kombinierte Themen, welche insgesamt 12.421 Nachrichten abdecken, während 29.252 Nachrichten ohne thematische Zuschreibung verblieben.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
3. Analyse des Online Antisemitismus auf TikTok
3.a. Identifizierung und Datenerhebung der TikTok-Beiträge
Die Datenerhebung erfolgte auf Grundlage einer kuratierten Hashtagliste. Diese wurde aus eigener Recherche sowie aus methodischen Vorgehensweisen vergleichbarer Untersuchungen abgeleitet. Anschließend wurde qualitativ geprüft, welche Hashtags auf TikTok empirisch relevante Treffer erzeugen und zugleich für das Forschungsvorhaben einschlägig sind. Die Ergebnisse dieser Prüfung wurden im Team diskutiert, eingegrenzt und in einer finalen Hashtagliste festgehalten. Für die Unterstützung bei der Zusammenstellung der Ausgangsliste bedanken wir uns beim Social Media Observatory des Leibniz-Institut für Medienforschung / Hans-Bredow-Institut (HBI). Für die anschließende Analyse wurden die Beiträge auf dieser Grundlage automatisiert über die Plattformoberfläche erhoben.5
Berücksichtigt wurden Beiträge, die im Zeitraum vom 19. Januar 2025 bis zum 9. Februar 2026 veröffentlicht wurden und mehr als 500 Views aufwiesen. Zusätzlich wurde die Erhebung geografisch eingegrenzt. Einbezogen wurden Beiträge, deren Profile initial in Europa, Nordamerika oder dem Nahen Osten registriert wurden. Anschließend wurden die Video-, Audio- und Bilddaten der erfassten Beiträge sowie die dazugehörigen Metadaten heruntergeladen. Die Erhebung erfolgte mit dem Skript TikTok-Content-Scraper.6 Insgesamt waren 39.136 Beiträge abrufbar. Für einige wenige Beiträge konnten Metadaten oder Mediendateien nicht vollständig erfasst werden. Zudem waren 1.076 ursprünglich identifizierte Beiträge zum Zeitpunkt der Ersterhebung nicht mehr abrufbar. Nach Ausschluss dieser unvollständigen Fälle ergibt sich ein Datensatz, der 30.484 Videos, 8.310 Slides und insgesamt 38.794 Beiträge umfasst.
3.b. Bereinigung und Relevanzgewichtung
Nach einer ersten Sichtung zeigte sich, dass Beiträge mit regionaler Zuordnung zu Mexiko für das Forschungsvorhaben ganz überwiegend nicht relevant waren. Diese 6.831 Beiträge wurden daher bereits im Vorfeld ausgeschlossen. Dadurch reduzierte sich der Datensatz zunächst auf 31.963 Beiträge.
Um den Datenumfang weiter einzugrenzen, wurden anschließend Beiträge ausgeschlossen, deren Beschreibungen oder Transkripte eindeutig nicht auf Deutsch oder Englisch verfasst waren. Für die Spracherkennung der Beschreibungen wurden zunächst Hashtags, Mentions, Emojis und nicht alphabetische Token entfernt. Anschließend kam die Python Bibliothek Lingua7 zum Einsatz, die insbesondere für die Erkennung kurzer Texte geeignet ist. Als mögliche Zielsprachen wurden die im Untersuchungsraum relevanten Sprachen sowie weitere im Material erwartbare Sprachen definiert, darunter Deutsch, Englisch, Französisch, Arabisch, Hebräisch, Persisch, Russisch, Spanisch, Türkisch und Ukrainisch.
Ausgeschlossen wurden alle Beiträge, deren bereinigte Beschreibung mehr als zwei Token umfasste und bei denen Lingua mit einem Konfidenzwert von über 0,6 eine andere Sprache als Deutsch oder Englisch erkannte. Auf dieser Grundlage wurden 3.203 Beiträge identifiziert. Ergänzend wurde dasselbe Verfahren auf die verfügbaren Transkripte angewendet. Für diese wurde eine Mindestlänge von zehn Token vorausgesetzt. Auch hier galt ein Konfidenzwert von über 0,6 für eine andere Sprache als Deutsch oder Englisch als Ausschlusskriterium. Unter den 6.248 verfügbaren Transkripten wurden so 1.623 Beiträge erkannt, die nicht deutsch oder englischsprachig waren.
Da sich die über Beschreibungen und Transkripte identifizierten Fälle teilweise überschnitten, ergab sich daraus insgesamt eine Exklusion von 3.992 Beiträgen. Das automatisierte Ausschlussverfahren wurde stichprobenartig manuell überprüft. Neben zufällig ausgewählten Fällen wurden dabei auch Beiträge mit augenscheinlich relevanten Tokens berücksichtigt. Innerhalb der festgelegten Schwellenwerte konnten keine Beiträge identifiziert werden, die ohne weitergehende Fremdsprachenkenntnisse außerhalb des Deutschen oder Englischen inhaltlich verständlich gewesen wären. Nach diesem Ausschluss verblieben 27.971 Beiträge im Datensatz.
3.c. Schätzung von Hashtags
Im nächsten Schritt wurden alle Hashtags die mindestens 15 Mal im Datensatz repräsentiert sind (n=1209) hinsichtlich ihrer Relevanz für das Forschungsvorhaben manuell von ExpertInnen geschätzt. Hashtags mit einem wahrscheinlichen Bezug zu Forschungsvorhaben wie etwa antisemitischen Ausdrucksformen, Codes oder Chiffren wurden als möglicherweise sehr relevant eingestuft und erhielten je Hashtag drei Punkte. Hashtags, die keinen unmittelbar zum Forschungsthema aufwiesen, aber dennoch auf thematische, diskursive oder kontextuelle Zusammenhänge verweisen konnten, in denen antisemitische Äußerungen eher möglich sind, wurden als möglicherweise relevant eingestuft und mit jeweils einem Punkt gewichtet. Hashtags mit nur einen sehr schwachen oder indirektem Bezug zum Forschungsthema sowie generische Marker oder plattformspezifischer TikTok-Slang erhielten hingegen keine Punkte.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Absolute und relative Häufigkeit der initialen Hashtags vor und nach der FilterungAbsolute und relative Häufigkeit der initialen Hashtags vor und nach der Filterung.
Auf Grundlage dieser Gewichtung wurde für jeden Beitrag ein Hashtag Score gebildet. Beiträge mit einem Score von weniger als drei Punkten wurden aus dem Datensatz ausgeschlossen. Dadurch reduzierte sich die Datenmenge von 27.971 auf 20.965 Beiträge. Insgesamt wurden in diesem Schritt somit 7.006 Beiträge ausgeschlossen. Zur Überprüfung dieses Schritts wurde eine manuelle Prüfung durch ExpertInnen anhand einer Zufallsstichprobe ausgeschlossener Beiträge durchgeführt. Daraus ergibt sich eine geschätzte Fehlerquote von zehn Prozent. Die Eingrenzung stellt damit eine forschungspragmatische Abwägung zwischen möglichem Informationsverlust und notwendiger Reduktion des Datenumfangs dar, um die anschließende quantaitive Inhaltsanalyse im Rahmen der verfügbaren analytischen Ressourcen zuverlässig durchführen zu können.
3.d. Auswertung
TikTok erhebt darüber hinaus einen Regionalcode für alle NutzerInnen. Dieser ist im Kern ein interner Indikator, meist als zweistelliger ISO-ähnlicher Code wie DE, US, FR usw. Er beschreibt nicht zwingend den exakten Aufenthaltsort, sondern die Region, der TikTok den Account zuordnet. TikTok selbst beschreibt, dass Standortinformationen für Empfehlungen, Standort-Tags und Werbung genutzt werden. Wenn keine Standortdienste verfügbar sind oder deaktiviert wurden, schätzt TikTok weiterhin eine ungefähre Region über Netzwerkinformationen wie SIM-Kartenregion, IP-Adresse und Systemeinstellungen.8 Die von TikTok bereitgestellten Standortinformationen wurden nicht in die Auswertung einbezogen, da ihre Aussagekraft für das Forschungsinteresse begrenzt ist. Die meisten Beiträge stammen aus englischsprachigen Ländern, insbesondere aus den USA und Großbritannien. Beiträge aus der DACH-Region machen lediglich 5,82 Prozent des Datensatzes aus. In die Stichprobe der quantitativen Inhaltsanalyse sind 195 Beiträge eingeflossen. Aufgrund dieser ungleichen Verteilung, dem Umstand, dass viele der Beiträge aus der DACH-Region keine deutsche Ansprache beinhalten und der zusätzlichen bestehenden Einschränkungen der Standorterkennung lassen sich keine belastbaren Rückschlüsse auf regionale Verbreitungsmuster ziehen. Auf weitere Analyseschritte entlang regionaler Zuordnungen wurde verzichtet.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Verteilung der Geocodes für den gesamten Datensatz.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Verteilung der Hashtags nach Geocode.
3.e. Stichprobenziehung
Anschließend wurde eine stratifizierte Stichprobe generiert, welche den kompletten Datensatz bestmöglich repräsentiert. Alle initialen Hashtags sollten dabei mindestens mit 10% der dazugehörigen Beiträge im Sample enthalten sein. Hashtags mit geringer Prävalenz (271000, globalizetheintifada, onestatepalestine, 271k, goyim, j3w, itsthejews, holocost, thepainterwasright) wurden pauschal übernommen, machen jedoch insgesamt nur 138 Beiträge aus. Alle weiteren Hashtags wurden anteilig per Zufallsauswahl in das Sample übernommen.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Darüber hinaus sollte bei der Generierung der Stichprobe auch der temporale Aspekt berücksichtigt werden. Hierzu wurde die Datenmenge anhand der Kalenderwoche aufgesplittet und das Sample anteilig befüllt. In der folgenden Darstellung ist der normalisierte Anteil von Beiträgen je Woche für den kompletten Datensatz und das Sample dargestellt. Die Stichprobe hat dabei eine mittlere Abweichung von 0,03% und eine maximale Abweichung von 0,1 Prozent.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Reichweite der Beiträge wurde bei der Schichtung der Stichprobe nicht gesondert berücksichtigt, jedoch zeigt sich hinsichtlich dieser Variable nur eine geringe Abweichung vom vollständigen Datensatz. Beiträge mit niedriger Reichweite sind allenfalls in geringem Umfang weniger enthalten.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Final wurde die Stichprobe um die 250 Beiträge mit der höchsten Reichweite ergänzt. Zusammen mit den 138 Beiträgen, welche Hashtags mit niedriger Prävalenz repräsentieren, ergab sich eine Sample-Größe von 2.446 Beiträgen.
3.f. Quantitative Inhaltsanalyse
Das Ziel der Untersuchung ist es, die Verbreitung und Erscheinungsformen antisemitischer Inhalte auf TikTok zu analysieren. Zu diesem Zweck wurde die in Schritt 3.e. beschriebene gewichtete Zufallsstichprobe von zwei KodierInnen ausgewertet. Der Ablauf der Auswertung folgte einem standardisierten Codebuch, das sowohl formale Merkmale der Beiträge als auch inhaltliche Ausprägungen antisemitischer Kommunikation erfasst.
Die Analyseeinheit ist jeweils ein einzelner TikTok-Beitrag. Dieser kann aus unterschiedlichen Elementen wie Text, Bild, Video, Audio oder einer Kombination dieser bestehen und wurde als multimodale Sinneinheit kodiert. Im Vordergrund stand der sichtbare und hörbare Inhalt des Beitrags. Ergänzend wurden Usernamen, Beschreibungstexte und Hashtags herangezogen, sofern sie für die Einordnung des Beitrags erforderlich waren. Um die Kodierung einheitlich und forschungspragmatisch zu halten, wurden keine zusätzlichen externen Recherchen durchgeführt. Fremdsprachige Inhalte, nicht verständliche Bezüge oder Fälle, die ohne weiteres Kontextwissen nicht sicher einzuordnen waren, wurden als Grenzfälle markiert und abschließend innerhalb eines Expertengremiums aufgelöst. Videos mit einer Dauer von bis zu zwei Minuten wurden vollständig angesehen, längere Videos ab Minute zwei kursorisch auf relevante Marker gesichtet.
Zentral für die Auswertung war zunächst die grundlegende Frage, ob und in welcher Weise ein Beitrag antisemitische Bezüge aufweist. Dafür wurden die Posts in fünf Relevanzkategorien eingeordnet:
- Eindeutig antisemitisch: Diese Beiträge zeichnen sich durch eine explizite Feindseligkeit gegenüber Jüdinnen und Juden als »Juden«9 aus. Sie markieren Personen, Gruppen oder Einrichtungen ausdrücklich als jüdisch und werten sie auf Grundlage einschlägiger Chiffren, Symbole oder Stereotype ab, die unmissverständlich als jüdisch markiert werden. Die Abwertung zielt dabei nicht auf konkrete Individuen, sondern auf das projektive Stereotyp des Juden ab. Ausgenommen sind jedwede Darstellung und Motive, die wohlwollend auch anders interpretiert werden könnten, wie codierte oder latente Formen, die eine eigene Interpretation des Kontext erfordern.
- Uneindeutig/möglicherweise antisemitisch: Beiträge dieser Kategorie enthalten potenziell antisemitische Anspielungen, etwa in Form von Codes, kommunikativen Umwegen oder stereotypisierende Anspielungen, »ohne Juden«10 eindeutig und explizit als kollektives Feindbild zu markieren. Kennzeichnend ist eine semantische Offenheit, die sowohl eine antisemitische Lesart ermöglichen als auch alternative Deutungen zulässt. Es gibt begründete Hinweise auf antisemitische Motive, die Verwendung von Codes, Mehrdeutigkeiten sowie eine uneindeutige Intention und ein Mangel an notwendigen Kontext verhindern jedoch eine eindeutige Zuordnung.
- Nicht antisemitisch, aber relevant für den Bedeutungszusammenhang: Beiträge mit thematischem Bezug zu Judentum, jüdischem Leben, Antisemitismus, Zionismus, Israel, Nahost oder Verschwörungstheorien, jedoch ohne erkennbare antisemitische Marker.
- Nicht relevant für das Forschungsvorhaben: Beitrag weist keinen relevanten Bezug zum Forschungsanliegen auf.
Für eindeutig und uneindeutigen antisemitische Beiträge wurden anschließend ideologische Erscheinungsformen erfasst:
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Definitionen eindeutiger und uneindeutiger Ausprägungen von Antisemitismus für den Kodiervorgang.
Zusätzlich wurden mögliche Gründe die Uneindeutigkeit der Beiträge dokumentiert. Sie wurden hinsichtlich folgender Kriterien unterschieden:
- Adressat/Zielobjekt: Die Ansprache oder Bezugnahme im Beitrag ist so vage, chiffriert oder mehrdeutig, dass der Adressat oder das Objekt, auf das sich die Aussage/der Inhalt bezieht, nicht eindeutig bestimmt werden kann (Beispiele: »Zionisten«, »die da oben«, »die von der Ostküste«).
- Humor/Ironie: Durch den rhetorischen Einsatz von Humor, Zynismus, Ironie oder Sarkasmus im Beitrag ist die inhaltliche Positionierung oder Intention der UrheberIn nicht eindeutig erkennbar.
- Tatsachenbehauptung: Der Beitrag enthält Tatsachenbehauptungen, die ohne zusätzliche Recherche nicht verlässlich eingeordnet oder überprüft werden können.
- Multimodalität: Ein potentiell antisemitischer Bedeutungszusammenhang wird erst im Zusammenspiel von Bewegtbild, Audio und Text erkennbar, nicht jedoch bei isolierter Betrachtung der einzelnen Elemente.
- Sonstige: Keine der aufgeführten Ambivalenz Gründe trifft zu, dennoch lässt das Beitrag weder als nicht antisemitisch noch als eindeutig antisemitisch verstehen.
Neben der inhaltlichen Einordnung wurden formale und plattformspezifische Merkmale erhoben. Dazu zählen die Verfügbarkeit des Beitrags, der Medientyp auch digitale Darstellungsformen, die wie folgt erfasst wurden:
- Meme: Ein Inhalt, der auf wiedererkennbare kulturelle Vorlagen, Bild-Text-Kombinationen oder Symbolgebrauch zurückgreift. Ein Meme zielt auf eine pointierte und semiotisch offene, affektive Verdichtung und kann als kulturelle Einheit beschrieben werden.
- Screenshot oder Thumbnail: Statische Abbildung einer bereits existierenden Bildes, einer Oberfläche oder eines anderen Medieninhalts (etwa eines Nachrichtenartikels).
- Nutzung generativer KI: Sichtbare Indizien, dass die Inhalte mit einer generativen KI erstellt wurden (Wasserzeichen, synthetisch wirkende Optik)
- Talking oder Silent Heads: Eine reale Person ist mit Kopf oder Oberkörper zentral im Bild und adressiert ein fiktives Publikum (hörbar und nicht hörbar).
- Tanz: Der Beitrag zeigt eine oder mehrere Personen bei einer erkennbar choreografierten oder rhythmisierten Tanzbewegung.
- Stitch: Ein funktional erkennbares Reaktionsformat, bei dem ein fremdes Video oder ein Ausschnitt daraus in den eigenen Beitrag eingebunden wird, um darauf zu reagieren, es zu kommentieren oder weiterzuführen.
- Greenscreen: Eine Person oder ein Vordergrundelement wird vor einem sichtbar künstlich eingefügten, ausgetauschten oder freigestellten Hintergrund präsentiert.
- Voice over: Eine oder mehrere Personen sind nicht im Video zu sehen, aber kommentieren oder sprechen aus dem Off.
- Lipsync: Eine sichtbare Person bewegt synchron die Lippen zu einem Ton, einer Stimme oder einem Sound, der erkennbar nicht aus der aktuellen Sprechsituation dieser Person stammt.
- Collage: Mehrere Bilder, Videos, Ausschnitte oder visuelle Elemente werden zusammengefügt.
- Gaming: Der Beitrag zeigt Inhalte aus Computer- oder Videospielen oder greift erkennbar auf Spielumgebungen, -figuren, -mechaniken oder typische Darstellungsweisen des Gamings auf.
- Interview: Der Beitrag ist als Gesprächsformat zwischen zwei oder mehr Personen erkennbar, bei dem eine Person Fragen stellt und eine andere auf diese antwortet.
- Verwendung von Emojis: Im Beitrag werden Emojis verwendet. Diese können sowohl im konkreten Kontext als chiffrierte antisemitische auftreten (Beispiele: 🧃, 💰), aber auch unabhängig von diesen Verweisen genutzt werden (Beispiele: 🙃,☝️).
- Sonstiges: Digitale Darstellungsform, die durch keine der vorhandenen Kategorien angemessen erfasst wird.
Hinsichtlich der Relevanz ergibt sich nach der Kodierung folgende Verteilung: Relevante Inhalte machen den Großteil der Beiträge aus (N=1095 / 44,8%), gefolgt von nicht relevanten Beiträgen (N=819 / 33,5%), uneindeutigen Inhalten (N=457 / 18,7%) und eindeutigen Inhalten (N=75 / 3,1%).
Die kodierte Grundmenge antisemitischer Inhalte umfasst dementsprechend 532 Beiträge. Bezüglich der Form verteilen sie sich wie in der folgenden Tabelle dargestellt:
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Zu beachten ist hierbei, dass Beiträge durchaus auch mehreren Formen zugehörig sein können. Die nachfolgenden Darstellungen verdeutlichen die Verteilung der Reichweite der kodierten Beiträgen in Bezug auf die Kategorien Relevanz und Form:
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Der relative Anteil der relevanten und antisemitischen Beiträge lässt sich weiterhin in der Stichprobe nach Geocode unterscheiden.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Relativer Anteil der relevanten und antisemitischen Beiträge in der Stichprobe nach initialem Hashtag:
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
3.g. Intercoder-Reliabilität
Im Allgemeinen werden für die Bestimmung der Reliabilität (Zuverlässigkeit) von Kodierungen meist verschiedene Kappa Statistiken verwendet (bzw. lässt sich im vorliegenden Fall der dichotomen Kategorien zeigen, dass die geläufigsten Koeffizienten äquivalent zu Kappa Statistiken sind). Kappa bezieht sich dabei auf eine Gruppe von Methoden, bei denen die Übereinstimmung zwischen Kodierern um einen dem Zufall zugeschriebenen Faktor bereinigt wird, um somit zu ermitteln, wie groß die rein inhaltliche Übereinstimmung ist. Mathematisch lassen sich diese Methoden wie folgt darstellen:
Inhaltliche Unterschiede ergeben sich dabei vor allem daraus, dass für die Berechnung der zufälligen Übereinstimmung unterschiedliche Annahmen getroffen werden. Um den Reliabilitätskoeffizienten haben wir Cohens Kappa genutzt. Er ist in der wissenschaftlichen Literatur die am häufigsten verwendete Kappa-Statistik. Er ist nur dann anwendbar, wenn genau zwei KodiererInnen, jedes Objekt kodiert haben. Die zugrundeliegende Annahme ist, dass beide KodiererInnen mit potentiell unterschiedlicher Frequenz die entsprechenden Ausprägungen kodieren. Als Schätzer für diese Verteilungen wird die beobachtete prozentuale Anteil an Ja-Stimmen für die betrachtete Kategorie herangezogen und daraus berechnet, wie groß die erwartete Übereinstimmung wäre, wenn beide einfach zufällig/blind mit dieser Wahrscheinlichkeit kodieren würden.

Je nach Forschungsfeld und -gegenstand können die Interpretationen der Übereinstimmungsgrade teilweise deutlich unterschiedlich ausfallen. Beispielhaft vergleicht die folgende Abbildung verschiedene »Faustregeln«, die in der Psychiatrie und Psychologie weit verbreitet sind, um die Ergebnisse von Kappa-Statistiken in qualitative Rubriken einzuordnen. Für unsere Zwecke sind wir in grundsätzlicher Übereinstimmung mit obigen Interpretationen davon ausgegangen, dass wir mit der Einteilung in »exzellent« (über 0,8), »gut« (0,6 bis 0,8) und »moderat« (0,4 bis 0,6) eine relativ konservative Mischform nutzen werden.
Die gewichtete Stichprobe von Beiträgen auf TikTok wurde von zwei KodiererInnen kodiert, wobei sich 244 Beiträge überschnitten. Diese Grundmenge nutzen wir im Folgenden zur Validierung der Intercoder-Reliabilität. Da einige Subvariablen nur unter bestimmten Bedingungen kodiert wurden, ergibt sich teilweise eine sehr geringe Prävalenz für einzelne Label, da eine vorherige Übereinstimmung hinsichtlich der Relevanz beider KodiererInnen notwendig ist. Im Folgenden wurden Mehrfachkodierungen außerdem in eigenständige binäre Variablen überführt. Neben der Kappa-Statistik und der relativen Übereinstimmung zwischen beiden KodiererInnen ist auch noch die Summe der Fälle aufgeführt, in denen sich mindestens einer der beiden KodiererInnen für die entsprechende Kategorisierung entschieden hat.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Für die zentrale Relevanz-Variable V1 ergibt sich nur ein moderater Reliabilitätswert. Die Intercoder-Reliabilität liegt je nach Auswertungskategorie zwischen 0,41 und 0,78. Damit bewegt sie sich insgesamt im moderaten und mäßigen Bereich, teilweise jedoch auch im schlechten. Die niedrigeren Werte betreffen vor allem die Eingrenzung der Kategorie uneindeutig antisemitisch. Ein möglicher Grund hierfür könnte sein, dass die Kriterien noch nicht hinreichend trennscharf bestimmen, wann ein Beitrag als uneindeutig antisemitisch und wann lediglich als thematisch relevant, aber nicht antisemitisch zu bewerten ist. Dies könnte auch mit der Beschaffenheit des Material zusammenhängen. Viele Beiträge begründen ihre Position nicht. Ganz im Gegenteil bleibt sie stellenweise vollständig der Interpretation der RezipientInnen überlassen, da es nur vereinzelt handfeste Faktoren gibt, die auf einen ideologischen Gehalt schließen lassen. Dadurch bleibt die Einordnung solcher Grenzen stärker von der subjektiven Interpretation der KodiererInnen abhängig. . Die Variable V7 wurden hingegen nur kodiert, wenn ein Beitrag vorher als relevant, aber nicht als eindeutig oder uneindeutig antisemtisch, ausgewiesen wurde. Daher basieren die dazugehörigen Reliabilitätswerte auf einer Teilmenge von 95 Beiträgen. Innerhalb dieser Kategorie hat vor allem die Behelfskategorie Sonstiges hinsichtlich der Intercoder-Reliabilität schlecht abgeschnitten. Die Unterkategorie hatte jedoch keine Relevanz für weitere Auswertungen und wurde im Text auch nicht erörtert.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Variablen V4 und V5 wurden nur kodiert, wenn ein Beitrag vorher als eindeutig oder uneindeutig antisemtisch ausgewiesen wurde. Aufgrund der geringen Fallzahl wurden für die Berechnung der Reliabilitätswerte beide Variablen kombiniert. Die Angaben basieren auf einer Teilmenge von 30 kodierten Beiträgen.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Variablen V4.6 und V5.6 kodieren die Darstellungsform der eindeutig und uneindeutig antisemitischen Beiträge. Aufgrund des äquivalenten Wertebereichs wurden sie für die Auswertung kombiniert. Zusammen basieren sie auf 30 kodierten Beiträgen. Die kleine Fallzahl begünstigt hierbei die starke Schwankung der Reliabilität. Einzelne Darstellungsformen treten auch gar nicht im Testsample auf.
Klicken Sie auf den unteren Button, um den Inhalt von Flourish zu laden.
Die Variable V5.7 kodiert die Ambivalenz uneindeutiger Beiträge. Daher existieren nur 17 Beiträge im Testsample, in denen sich beide KodiererInnen bzgl. der Uneindeutigkeit einig waren. Die niedrige Fallzahl erklärt sicherlich partiell die schlechte Reliabilität, weshalb diese Auswertung keine weitere Verwendung findet.
4. Zur Untersuchung der Nachrichten mit Zensurvorwürfen auf Telegram
Um zu untersuchen, wie das Thema Zensur auf Telegram behandelt wird, haben wir gemeinsam mit Kolleginnen und Kollegen der Johannes Gutenberg-Universität und der Universität Tübingen deren Telegram-Datensatz durchsucht. Im Rahmen des Projekts IKreAT11 wurden hierfür alle öffentlichen, deutschsprachigen und miteinander kommunizierenden Telegramkanäle inklusive ihrer Nachrichten erhoben. Um die Nachrichten mit Zensurvorwürfen und einer Opferperzeption im Zusammenhang mit „Zensur“ herauszufiltern, haben wir die Nachrichten nach „zensur“ und „zensier“ durchsucht. Im Nachgang wurden Weiterleitungen ausgeschlossen und bloße Nennungen der Hashtags #Zensur entfernt. Ebenso wurden Nachrichten ausgeschlossen, die lediglich Zensur im Footer hatten. Nach der Filterung hatten wir noch rund 447.000 Nachrichten, die wir mit Google Gemini 3.1-flash-lite klassifiziert haben. Dazu wurde folgender System-Prompt verwendet:
„You are an expert qualitative researcher analyzing German Telegram messages for narratives of censorship. Your task is to classify who is accused of censoring, and who is being censored. Context: The texts range from high-level state censorship claims to hyper-local political disputes.
Instructions:
- Extract the exact word/phrase used in the text (raw).
- Categorize it strictly into one of the provided ENUM categories. If no clear censor/victim is mentioned, use ‚Keiner_genannt‘ or ‚Unklar‘.“
Das LLM sollte die Textnachrichten nach folgenden Codebuch-Kategorien klassifizieren.
- zensor_raw
- zensor_kategorie:
„Tech-Plattform“,
„Staat/Bundesebene“,
„Lokal/Verwaltung“,
„Traditionelle Medien“,
„Faktenchecker“,
„Zivilgesellschaft/NGOs“,
„Linke/Linksgrün“,
„Vage/Abstrakt“,
„Keiner_genannt“
- opfer_raw
- opfer_kategorie:
„Selbst/Eigener_Inhalt“,
„Eigene_Politische_Gruppe“,
„Patriotismus“,
„Alternative Medien“,
„Prominente/Influencer“,
„Allgemeinheit/Wahrheit“,
„Unklar”
- is_lokalpolitik: true/false
In die Spalten opfer_raw und zensor_raw sollte das LLM dann die, in den jeweiligen Textnachrichten genannten Opfer und Zensoren auflisten und diesen dann in die jeweiligen Kategorien unterteilen. So konnten wir beispielsweise relativ schnell und einfach herausfinden, welche Nachrichten eine Zensur durch „Tech-Plattformen“ beklagen und wer angeblich zensiert wurde. Da die Automatisierung von Textklassifizierungen durch große Sprachmodelle (LLMs) stets das Risiko von systematischen Fehlinterpretationen birgt, wurde zur Qualitätssicherung der Daten eine umfangreiche qualitative Validierung durchgeführt. Hierfür wurde eine zufällige Stichprobe von 1.000 klassifizierten Telegram-Nachrichten (ca. 0,2 % des Gesamtdatensatzes) gezogen und manuell gesichtet. Ziel dieser Überprüfung war es nicht, klassische Interkoder-Reliabilitätswerte zu berechnen, sondern die inhaltliche Plausibilität (Face Validity) und das Kontextverständnis der KI-Annotation in der Praxis zu evaluieren. Ferner wurde hierzu die Kategorie “is_lokalpolik” hinzugezogen, die wir, da sie relativ selten und spezifisch verwendet wird, zur Qualitätssicherung miterhoben haben. Eventuelle Abweichungen waren meist nicht auf Fehler des Sprachmodells zurückzuführen, sondern auf die inhärente Mehrdeutigkeit der Ausgangstexte (z. B. extrem fragmentierte Sätze und sehr starke Uneindeutigkeiten), bei denen auch menschliche KodiererInnen zu unterschiedlichen Einschätzungen kommen würden.
Da wir auch die Metadaten der erhobenen Nachrichten extrahiert haben, konnten wir außerdem das Aufkommen der Nachrichten mit Zensurperzeption im Zeitverlauf darstellen. Um zu beurteilen, ob die Anstiege lediglich auf generelles Rauschen durch einen Anstieg des gesamten Nachrichtenaufkommens zurückzuführen sind, haben wir die Zeitreihe mit dem gesamten Nachrichtenaufkommen pro Monat flankiert. Dabei zeigte sich, dass zu verschiedenen Zeitpunkten signifikant mehr Nachrichten mit Zensurperzeption verfasst wurden. Die Daten dieser Monate haben wir anschließend manuell untersucht und die damit verbundenen Ereignisse in der entsprechenden Grafik benannt.
- https://maartengr.github.io/BERTopic/index.html
- Multilingual E5 Text Embeddings: A Technical Report. Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei, arXiv 2024, URL: https://arxiv.org/pdf/2402.05672
- “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction”. McInnes et al, 2018, online verfügbar: https://arxiv.org/abs/1802.03426.
- Siehe online: https://polyglot.readthedocs.io/en/latest/Detection.html Dabei wurde die Sprachvorhersage nur akzeptiert, wenn das Attribut reliable den Wert True vorwies. Um eine potentiell zu restriktive Filterung zu erkennen, wurden zufällig 500 aus den herausgefilterten Texten gezogen und manuell geprüft. Davon waren fünf fälschlicherweise aussortiert. Diese Fehlerquote stellt kein Problem für die Ergebnisse des Themenmodells dar. Mögliche Falsch-Positive wurden nicht überprüft.
- Gregor Wiedemann, Felix Victor Münch, Jan Philipp Rau, Phillip Kessling & Jan-Hinrik Schmidt, »Concept and challenges of a social media observatory as a DIY research infrastructure«, in: Publizistik Jg. 68, S. 201–223, DOI: 10.1007/s11616-023-00807-6.
- Bukold, Q. (2025). TikTok-Content-Scraper (Version 2.0) [Computer software]. Weizenbaum Institute. https://doi.org/10.34669/WI.RD/4, Quellcode: https://github.com/Q-Bukold/TikTok-Content-Scraper
- https://github.com/pemistahl/lingua-py
- https://www.tiktok.com/support/faq_detail?id=7543897457726593542
- Brian Klug, »What Do We Mean When We Say ‘Antisemitsm’? Echoes of shattering glass«, in: Proceedings / International conference Antisemitism in Europe Today: the Phenomena, the Conflicts (2013), S. 5, online hier.
- Lars Rensmann, Politischer Antisemitismus im postfaktischen Zeitalter (Baden-Baden: Nomos, 2025), S. 47.
- Identifikation und Klassifikation radikaler und extremistischer Akteure und Akteurinnen auf Telegram (IKreAT), online hier