03. Jan 2024

Erkennung von irreführenden Informationen auf TikTok mit Hilfe von Machine Learning

Author

Nicolai Minter

In der heutigen digitalisierten Welt spielen soziale Medien wie z.B. Instagram und TikTok eine bedeutende Rolle bei der Verbreitung von Informationen. Das rasante Tempo, mit dem sich Inhalte verbreiten, birgt dabei das Risiko, dass irreführende Informationen unbeabsichtigt zur vermeintlichen Wahrheit werden. Insbesondere auf TikTok, einer Plattform, die auf kurze Videos setzt, erlangen Inhalte schnell eine enorme Reichweite. Dabei bilden Kinder und Jugendliche (13 bis 17 Jahre) zusammen mit jungen Erwachsenen (18 bis 24 Jahre) fast 50% der TikTok-Nutzenden (14,4% bzw. 34,9%). [1a]

Deswegen ist es von besonderer Bedeutung, dass gerade diese jungen Nutzer:innen Werkzeuge erhalten, die sie dabei unterstützen, zwischen verifizierten Informationen und Falschmeldungen zu unterscheiden.

Im Rahmen meiner Masterarbeit habe ich mich damit beschäftigt, wie irreführende Informationen in TikTok-Videos automatisiert erkannt werden können. Als irreführend werden Informationen bezeichnet, die faktisch falsch oder aus dem Kontext gerissen sind. Im Mittelpunkt dieser Arbeit steht eine Pipeline, die ein TikTok-Video erhält und am Ende eine Klassifikation vornimmt, ob es sich um irreführende Informationen handelt oder nicht. Bei den einzelnen Verarbeitungsschritten kommen diverse Machine-Learning-Komponenten zum Einsatz, welche ich im Folgenden kurz vorstellen möchte.

Die Pipeline analysiert eingehende Videos, um relevante Sätze zu identifizieren, und bewertet diese hinsichtlich potenziell irreführender Informationen.

Das Datenset

Zum Zeitpunkt der Erstellung der Masterthesis im Oktober 2022 stand kein öffentlich zugängliches Datenset zur Verfügung, das speziell auf die Erkennung irreführender Informationen in TikTok-Videos abzielte. Deswegen habe ich mich dazu entschieden, ein eigenes Datenset zu erstellen. Dabei wurden die TikTok-Videos durch das Scannen von Hashtags ausgewählt. Der Fokus lag hierbei auf Hashtags, die in Zusammenhang mit Themen stehen, bei denen die Verbreitung von irreführenden Informationen wahrscheinlicher ist. Die im Rahmen dieser Arbeit ermittelten Hashtags lassen sich grob den drei Themenclustern Corona/CoViD19, Ukraine/Russland und Donald Trump/Politik in den USA zuordnen.

Name:	CraftSessionId
Description:	Craft relies on PHP sessions to maintain sessions across web requests. That is done via the PHP session cookie. Craft names that cookie “CraftSessionId” by default, but it can be renamed via the phpSessionId config setting. This cookie will expire as soon as the session expires.
Provider:	this site
Expiry:	Session

Name:	CRAFT_CSRF_TOKEN
Description:	Protects us and you as a user against Cross-Site Request Forgery attacks.
Provider:	this site
Expiry:	Session

Name:	accso-cookie-consent_en
Description:	Saves the data protection settings you have made.
Provider:	this site
Expiry:	Persistent

AccsoNet

academy.A on YouTube

Erkennung von irreführenden Informationen auf TikTok mit Hilfe von Machine Learning

Das Datenset

Alina Bos

Privacy Settings

AccsoNet

academy.A on YouTube

Das Datenset

Alina Bos