Invloed van lage kwaliteit indexering op taaltracking met behulp van Ngram

Google Books, een essentiële bron voor academici en onderzoekers, staat recentelijk onder kritiek vanwege het indexeren van boeken van lage kwaliteit. Deze indexering kan gevolgen hebben voor de nauwkeurigheid en betrouwbaarheid van de taalonderzoekstool, Ngram. Ngram, dat taalgebruik in de loop van de tijd bijhoudt, vertrouwt sterk op gegevens van Google Books. Daarom roept de opname van ondermaatse boeken in de index vragen op over de kwaliteit van de resultaten van Ngram.

Een recent onderzoek uitgevoerd door 404Media onthulde dat Google Books tal van boeken bevatte die leken te zijn geschreven door AI. Door de zoekterm “zoals ik het weet” te gebruiken, die vaak wordt gebruikt door chatbots zoals ChatGPT, vond de publicatie een mix van resultaten. Hoewel de meeste boeken relevant waren en onderwerpen behandelden die verband houden met AI, waren er enkele opmerkelijke uitschieters die niet in lijn waren met de technologie. Deze boeken leken te zijn gegenereerd door een bot en misten elke zinvolle inhoud.

Een voorbeeld dat ontdekt is door 404Media was “Beren, Stieren, en Wolven: Beurshandel voor de twintigjarige” van Tristin McIver. Dit boek leek informatie te hebben verkregen van Wikipedia, inclusief de zin “zoals ik het weet”. Op soortgelijke wijze bevatten boeken op sociale mediaplatforms zoals Twitter nog informatie uit 2021, wat verouderd is gezien de snelle ontwikkeling van AI-modellen.

Ngram, de taaltrackingtool die is gebouwd op basis van gegevens van Google Books, speelt een cruciale rol bij het verzamelen van onderzoek voor taalkundigen en academici. Het stelt gebruikers in staat om de evolutie van taalgebruik te observeren en te bestuderen door geschreven werken te analyseren. Echter, met de opname van boeken van lage kwaliteit in de index van Google Books, kan de data-integriteit en betrouwbaarheid van Ngram worden aangetast.

Het is belangrijk op te merken dat Google aan 404Media heeft verduidelijkt dat recente werken op Google Books momenteel geen invloed hebben op de resultaten van Ngram. Er bestaat echter een mogelijkheid dat deze boeken in toekomstige gegevensupdates worden opgenomen, wat mogelijk de nauwkeurigheid van de taaltracking van Ngram ondermijnt.

**Veelgestelde vragen (FAQ)**

**Wat is Ngram?**

Ngram is een onderzoekstool ontwikkeld door Google die bijhoudt hoe taalgebruik in de loop van de tijd evolueert. Door de taal in geschreven werken te analyseren, biedt het waardevolle inzichten in taalpatronen en veranderingen.

**Hoe draagt Google Books bij aan Ngram?**

Google Books dient als een belangrijke gegevensbron voor Ngram. Het scant en indexeert een uitgebreide collectie geschreven werken, die teruggaan tot de 16de eeuw, die Ngram gebruikt om taalgebruikstrends te analyseren.

**Waarom is de indexering van boeken van lage kwaliteit een zorg?**

De opname van boeken van lage kwaliteit in de index van Google Books roept vragen op over de betrouwbaarheid en nauwkeurigheid van de taaltracking van Ngram. Aangezien Ngram sterk vertrouwt op de gegevens van Google Books, kan de aanwezigheid van door bots gegenereerde of slecht geschreven boeken de resultaten scheef trekken en het taalgebruik verkeerd voorstellen.

**Kunnen boeken van lage kwaliteit van invloed zijn op academisch onderzoek?**

Ja, de aanwezigheid van boeken van lage kwaliteit in de gegevens van Ngram kan van invloed zijn op academisch onderzoek. Onderzoekers en taalkundigen vertrouwen op Ngram voor taalanalyse, en als de gegevens vervuild raken met irrelevante of onbetrouwbare bronnen, kan dit leiden tot onnauwkeurige conclusies en misinterpretaties.

**Zal Google het probleem van indexering van boeken van lage kwaliteit aanpakken?**

Hoewel Google heeft verduidelijkt dat recente werken op Google Books momenteel geen invloed hebben op de resultaten van Ngram, is het nog onduidelijk welke stappen Google zal ondernemen om het probleem van indexering van boeken van lage kwaliteit aan te pakken. Aangezien de opname van dergelijke boeken de integriteit van de gegevens van Ngram kan ondermijnen, is het belangrijk dat Google maatregelen neemt om de betrouwbaarheid en nauwkeurigheid van zijn taalonderzoekstool te waarborgen.

The source of the article is from the blog tvbzorg.com

Privacy policy
Contact