התפתחות חדשה באימון של דגמי למידה עמוקה מבלי להפר זכויות יוצרים

מדליי הלמידה העמוקה בתחום הבינה המלאכותית (AI) ראו התקדמות ניכרת בשנים האחרונות, אך אחד האתגרים באימון של דגמים אלו היה השימוש בחומרים עם זכויות יוצרים. עם זאת, כיום צמח דרכים אלטרנטיביים שמאפשרים לאמן דגמי AI בלי להפר זכויות היוצרים.

קבוצת מחקר שזוכה תמיכת הממשלה הצרפתית עשתו תרומה חפיצה בתחום זה בשחרור מערך נתונים מתקדם של AI המורכב באופן מוחלט מטקסט בתחום הכללי. מערך הנתונים השובר דרך זה מציע ראיות כי ניתן לאמן דגמים בשפות רבות מבלי צורך בשימוש בחומרים עם זכויות יוצרים.

בנוסף, ארגון ללא מטרת רווח, Fairly Trained, הודיע על הצלחתו לאמת דגם ראשוני וגדול בשם KL3M. הדגם פלאי זה נפתח על ידי 273 ונצ'רס, חברת יועץ בתחום טכנולוגיה משפטית בשיקגו, שהשתמשה במערך נתונים מקורי שכלל מסמכים משפטיים, פיננסיים ורגולטוריים. על ידי ייצור לפי חוקי זכויות היוצרים ובשימוש במערך שלהן, חברת 273 ונצ'רס מוכיחה כי אפשר לבנות דגמי שפה גדולים מבלי להתעסק בסוגיות מטעותות של הפרת זכויות יוצרים.

לפי ג'יליאן בומריטו, המייסדת המשותפת של 273 ונצ'רס, ההחלטות שלהם לאמת את KL3M באמצעות מערך הנתונים שלהן, נובעות מקשי קלינטיהם הבטוחים לסיכון בתעשיית המשפטים. קלינטים אלו היו דאוגים למקור הנתונים ורצו הבטחות כי דגמי הAI שלהם אינם מבוססים על נתונים מזויפים או עם זכויות יוצרים. על ידי שימוש במערך נתונים שהוקפץ בקפידה, בומריטו מדגישה כי גודל הדגם אינו צריך להיות עצום מדי, ומדגישה על חשיבות הנתונים באיכות גבוהה בהשגת ביצועים טובים והתמחות.

בעוד מערכי נתונים כמו KL3M יכולים כיום להיות יחסית קטנים בממוצע יחסית לאלה שנאספו על ידי ענפים על כמו OpenAI, יש תקוות לעתיד. מחקרים שנערכו לאחרונה פרסמו את Corpus המשותף, שהם טוענים כי נתוני AI נרחבים ביותר זמינים לדגמים שפה בלבד מתוך תוכן בכל הפרסומים הציבוריים. מערכת זו, אשר תוך בה פנים מלאת אימונים פרלניים לAI טקסטרס מכתבים שנדיגום על ידי מוסדות כמו הספרייה הציבורית של ארצות הברית והספריה הלאומית של צרפת. בסיס הנתונים המשותף צועד לספק לחוקרים ולסטרטאפים מערך אימון שהוא חופשי מנגינות זכויות יוצרים.

למרות שמערכי נתונים שכולם לשבע היימעי יש להם הגבלות, כמו אוכלוס נתונים יתקעים מתקופות עבר, הם מציעים משאב חסר ערך לאימוני מודלי שפה גדולים. פרויקטים כמו Corpus המשותף וKL3M מדגימים איום של רובית צומחתי בקהילת AI לעימות עם הארגומניס במחלוקת עלסקראפינג ללא רשות. למעשה, Fairly טריינד מייסדית את חברת הראשוני לספקϤי הדגמות מערכת קוליות המופעלות, מראה כי יש טרנד גדל עולה בתעשייה לקבלת רישוי מתאים ואילוני הנכס הרוחניים.

שאלות נפוצות

The source of the article is from the blog aovotice.cz

Privacy policy
Contact