03. Jan 2024

Erkennung von irreführenden Informationen auf TikTok mit Hilfe von Machine Learning

Accso Avatar auf grauem Font

Author

Nicolai Minter

Tik Tok 02

In der heutigen digitalisierten Welt spielen soziale Medien wie z.B. Instagram und TikTok eine bedeutende Rolle bei der Verbreitung von Informationen. Das rasante Tempo, mit dem sich Inhalte verbreiten, birgt dabei das Risiko, dass irreführende Informationen unbeabsichtigt zur vermeintlichen Wahrheit werden. Insbesondere auf TikTok, einer Plattform, die auf kurze Videos setzt, erlangen Inhalte schnell eine enorme Reichweite. Dabei bilden Kinder und Jugendliche (13 bis 17 Jahre) zusammen mit jungen Erwachsenen (18 bis 24 Jahre) fast 50% der TikTok-Nutzenden (14,4% bzw. 34,9%). [1a]

Deswegen ist es von besonderer Bedeutung, dass gerade diese jungen Nutzer:innen Werkzeuge erhalten, die sie dabei unterstützen, zwischen verifizierten Informationen und Falschmeldungen zu unterscheiden.

Im Rahmen meiner Masterarbeit habe ich mich damit beschäftigt, wie irreführende Informationen in TikTok-Videos automatisiert erkannt werden können. Als irreführend werden Informationen bezeichnet, die faktisch falsch oder aus dem Kontext gerissen sind. Im Mittelpunkt dieser Arbeit steht eine Pipeline, die ein TikTok-Video erhält und am Ende eine Klassifikation vornimmt, ob es sich um irreführende Informationen handelt oder nicht. Bei den einzelnen Verarbeitungsschritten kommen diverse Machine-Learning-Komponenten zum Einsatz, welche ich im Folgenden kurz vorstellen möchte.

Die Pipeline analysiert eingehende Videos, um relevante Sätze zu identifizieren, und bewertet diese hinsichtlich potenziell irreführender Informationen.

Das Datenset

Zum Zeitpunkt der Erstellung der Masterthesis im Oktober 2022 stand kein öffentlich zugängliches Datenset zur Verfügung, das speziell auf die Erkennung irreführender Informationen in TikTok-Videos abzielte. Deswegen habe ich mich dazu entschieden, ein eigenes Datenset zu erstellen. Dabei wurden die TikTok-Videos durch das Scannen von Hashtags ausgewählt. Der Fokus lag hierbei auf Hashtags, die in Zusammenhang mit Themen stehen, bei denen die Verbreitung von irreführenden Informationen wahrscheinlicher ist. Die im Rahmen dieser Arbeit ermittelten Hashtags lassen sich grob den drei Themenclustern Corona/CoViD19, Ukraine/Russland und Donald Trump/Politik in den USA zuordnen.

Alina Bos

Software Engineer
Ihre Ansprechpartnerin zum Thema Machine Learning
Alina Bos Raute