التأثير السلبي لفهرسة كتب Google Books ذات الجودة المنخفضة على تتبع لغة Ngram

كشف “404Media” مؤخرًا عن أن Google Books قامت بضم العديد من الكتب التي يبدو أنها كُتبت بواسطة الذكاء الاصطناعي. باستخدام مصطلح البحث “حسب آخر تحديث لمعرفتي”، الذي يُستخدم بشكل شائع من قبل الدردشات الآلية مثل ChatGPT، وجدت الدراسة مزيجًا من النتائج. على الرغم من أن معظم الكتب كانت ذات صلة وناقشت مواضيع تتعلق بالذكاء الاصطناعي، كانت هناك بعض الاختلافات الغريبة التي لم تتماشى مع التكنولوجيا. يبدو أن هذه الكتب تم إنشاؤها عن طريق برنامج آلي وتفتقر إلى أي محتوى ذو مغزى.

من الأمثلة التي اكتشفتها “404Media” كان كتاب “Bears، Bulls، and Wolves: Stock Trading for the Twenty-Year-Old” للمؤلف Tristin McIver. يبدو أن هذا الكتاب اعتمد على معلومات من ويكيبيديا، بما في ذلك عبارة “حسب آخر تحديث لمعرفتي”. بالمثل، كتب على منصات التواصل الاجتماعي مثل تويتر لا تزال تحتوي على معلومات من عام 2021، مما يعتبر منتهي الصلاحية نظرًا للتطوير السريع لنماذج الذكاء الاصطناعي.

يُلعب تتبع اللغة “Ngram”، الذي بني على بيانات من Google Books، دورًا حاسمًا في جمع البيانات للباحثين في علم اللغويات والأكاديميين. إنه يتيح للمستخدمين مراقبة ودراسة تطور استخدام اللغة من خلال تحليل الأعمال الكتابية. ومع ضم الكتب ذات الجودة المنخفضة في فهرس Google Books، قد يتم تعريض نزاهة بيانات Ngram وموثوقيتها للخطر.

أسئلة متكررة

ما هو Ngram؟

Ngram هو أداة بحث قامت Google بتطويرها تتبع كيفية تطور استخدام اللغة مع مرور الوقت. من خلال تحليل اللغة الموجودة في الأعمال الكتابية، يقدم أدلة قيمة حول الأنماط اللغوية والتغيرات.

كيف يساهم Google Books في Ngram؟

يشكل Google Books مصدر بيانات هامًا لـ Ngram. يقوم بمسح وفهرسة مجموعة شاسعة من الأعمال الكتابية، تعود تاريخها إلى القرن الخامس عشر، والتي يستفيد Ngram منها لتحليل اتجاهات استخدام اللغة.

لماذا يُشكل تضمين الكتب ذات الج… إلى الاستنتاجات غير دقيقة والتفسيرات المغلوطة.

هل ستعمل Google على حل مشكلة فهرسة الكتب ذات الجودة المنخفضة؟

بينما أوضحت Google أن الأعمال الحديثة على Google Books لا تؤثر حاليًا على نتائج Ngram، فإنه لا يزال غير واضح ما الخطوات التي ستتخذها Google لمعالجة قضية فهرسة الكتب ذات الجودة المنخفضة. حيث إن إضافة هذه الكتب قد تعرّض نزاهة بيانات Ngram ودقتها للخطر، من المهم أن تتخذ Google إجراءات لضمان مصداقية ودقة أداة بحثها في مجال اللغة.

مشكلة فهرسة الكتب ذات الجودة المنخفضة في Google Books تثير قلقًا ليس فقط بالنسبة لدقة Ngram ولكن أيضًا بالنسبة إلى صناعة بحث وتحليل اللغة بشكل أوسع. يُستخدم Ngram على نطاق واسع من قبل اللغويين والأكاديميين والباحثين لمراقبة ودراسة تطور استخدام اللغة مع مرور الوقت. ونتيجة لذلك، فإن أي تنازل عن نزاهة بيانات Ngram يمكن أن يكون له عواقب واسعة النطاق على الدراسات والتخصصات المتعلقة باللغة.

تعتمد صناعة بحث وتحليل اللغة بشكل كبير على البيانات المدفوعة بالذكاء الاصطناعي لفهم التفاصيل والأنماط في استخدام اللغة. يُلعب Ngram، مع مجموعته الشاسعة من الكتب المفهرسة، دورًا حاسمًا في توفير هذه الأدلة. ومع ضم الكتب ذات الجودة المنخفضة في الفهرس، هناك خطر أن يكون الاتجاهات والأنماط التي تم التعرف عليها بواسطة Ngram مشوهة أو غير دقيقة.

علاوةً على ذلك، فإن سوق أدوات بحث وتحليل اللغة قد شهد نموًا مطردًا في السنوات الأخيرة. حيث أن اللغة مستمرة في التطور والتغيير، هناك طلب متزايد على الأدوات الموثوقة والدقيقة التي يمكنها تتبع وتحليل هذه التغييرات. لقد أثبت Ngram نفسه كلاعب بارز في هذا السوق، لكن المخاوف المحيطة بجودة بياناته تسلط الضوء على المشاكل المحتملة التي يمكن أن تؤثر على موقفه في السوق.

The source of the article is from the blog elperiodicodearanjuez.es

Privacy policy
Contact