Boj proti online nenávisti: Španělští výzkumníci vyvíjejí AI-Powered Moderation

Fenomén ‚nenávistných projevů‘ se stává stále běžnějším na sociálních sítích, což vyvolává obavy o schopnost kontrolovat takové chování na platformách jako Facebook, Twitter, YouTube a TikTok. Navzdory nástrojům navrženým k označení a odstranění urážlivého obsahu a nahlášení potenciálně ilegální činnosti policii, trend online nenávistných projevů stále stoupá, což se stává stále obtížnější ovládat.

Španělští výzkumníci inovují strategie k boji s tímto společenským problémem prostřednictvím projektu Moderates, který je součástí skupiny SINAI přidružené k Centru pokročilých informačních a komunikačních technologií Univerzity v Jaénu. Tým je uznáván pro svou práci v oblasti výpočetní společenské vědy a odbornost v zpracování přirozeného jazyka – špičkové technologie umělé inteligence.

Tento projekt využívá zpracování přirozeného jazyka k studiu a moderování škodlivých projevů. Luis Alfonso Ureña a María Teresa Martín, hlavní výzkumníci projektu, zdůrazňují důležitost trénování AI s vysokokvalitními jazykovými prostředky, jako jsou slovníky, textová těla a slovníky, k rozpoznání a potlačování různých forem nenávistných projevů.

Díky téměř 300 000 eury financování od Ministerstva vědy a inovací pro svůj projekt tým experimentuje s unikátním přístupem od konce roku 2022. Namísto pouhého odstraňování urážlivých zpráv cílí na podporu konstruktivní komunikace propagací pozitivních zpráv, inspirovaných strategiemi historicky využívanými sociálními organizacemi v vzdělávacích kampaních.

Klíčovou inovací jejich přístupu k protinarrativu je využití robota vybaveného technologií ChatGPT k rozšíření neutralizace negativního obsahu. Tato schopnost AI slibuje jako cenný doplněk pro osvětové kampaně a existující týmy moderátorů.

Ureña zdůrazňuje výzvu vytvoření vysoce kvalitních nástrojů schopných identifikovat širokou škálu situací, včetně nuancované interpretace obrazného jazyka. AI technologie musí být trénována, aby správně interpretovala komplexní výrazy a varianty ve španělštině, které jsou v současné době upřesňovány ve fázi experimentu před integrací do jakékoliv sociální sítě nebo fóra.

Ve Španělsku se šíření online nenávistných projevů zvyšuje, hnáno rasismem a homofobií. Zpráva Oberaxe ukázala, že sociální platformy odstranily jen 35 % identifikovaného obsahu nenávistných projevů. Ureña poznamenává, že předání lidských znalostí AI není bezchybné kvůli dědičným zkreslením, což je klíčové při rozlišování mezi nenávistným projevem a svobodou slova.

Eskalace internetových nenávistných činů souvisejících s rasismem, xenofobií a diskriminací na základě sexuální orientace nebo genderové identity je naléhavým problémem, s významným nárůstem, jak oznámilo Ministerstvo vnitra. Projekt Moderates otevírá nové možnosti pro moderování obsahu na různých digitálních platformách, od sociálních sítí po fóra a online mediální kanály.

Boj proti online nenávisti a použití nástrojů pro moderaci poháněných AI podobně jako ten vyvinutý španělskými výzkumníky se zabývá složitou a zásadní otázkou v digitální době. Zde jsou některé relevantní fakta, otázky, výzvy, kontroverze, výhody a nevýhody spojené s touto problematikou:

Relevantní fakta:
– Růst sociálních médií vedl k zvýšené expozici online nenávistným projevům, které mohou mít vážné psychologické dopady na jednotlivce a společenské dopady.
– AI-poháněná moderace musí rozlišovat mezi nenávistnými projevy, legálním svobodným projevem a satirou, což může být kulturně a kontextově specifické.
– Možnost AI klamat obsah může vést k nespravedlivé cenzuře nebo přehlížení skutečně škodlivého obsahu, což zvyšuje důležitost kvality školení AI.
– Obavy o soukromí vznikají, když AI nástroje k moderaci analyzují a moderují uživatelsky vytvořený obsah.
– AI modely, včetně těch používaných v moderaci, mohou zdědit zkreslení přítomná ve výcvikových datech, což vede k nespravedlivým praktikám moderace.
– Španělští výzkumníci využívají technologii ChatGPT, která je známá svými konverzačními schopnostmi a porozuměním jazyku.

Klíčové otázky:
– Jak přesná je AI v identifikaci a moderaci nenávistných projevů bez zasahování do svobody projevu?
– Jaké kroky se přijímají k zajistění, že AI systémy jsou osvobozeny od zkreslení?
– Jak bude implementace AI-poháněné moderace měnit uživatelské chování a zkušenosti na sociálních sítích?

Klíčové výzvy/kontroverze:
– Zajištění, že nástroje AI pro moderaci jsou školeny na rozmanitých a reprezentativních sadách dat k minimalizaci zkreslení.
– Balancování potřeby efektivní moderace nenávistných projevů s právem na svobodný projev a vyhýbání se nadměrné cenzuře.
– Vyvíjení AI, která rozumí kontextu, sarkasmu a nuancím v jazyce, aby předcházela falešným pozitivům a negativům.
– Adresování etických důsledků toho, kdy AI rozhoduje, co tvoří přijatelný projev na sociálních platformách.

Výhody:
– AI může analyzovat obrovské množství dat rychleji než lidskí moderátoři, což vede k efektivnějším procesům moderace.
– Existuje potenciál snížit expozici lidských moderátorů psychicky škodlivému obsahu.
– AI-poháněné nástroje mohou poskytovat nepřetržitou, v reálném čase moderaci bez únavy.

Nevýhody:
– AI nemusí rozumět kontextu a nuancím tak dobře jako lidský moderator, což může vést k chybám v hodnocení.
– Závislost na AI by mohla vést k menší transparentnosti v procesech moderace a rozhodování.
– Zajištění spravedlivosti AI a vyhýbání se algoritmickým zkreslením je složitou a trvalou výzvou.

Pro více informací k této problematice a souvisejícím výzkumům byste mohli zvážit navštívení následujících zdrojů:
– Facebook
– Twitter
– YouTube
– TikTok

Tyto odkazy směřují na hlavní platformy zmíněné v souvislosti s tématem, které by mohly nabídnout další poznatky o svých stávajících politikách a výzvách moderace.