Wymuszanie kodowania przez SI: Klucz do rozwijania dużych modeli językowych

Podczas gdy technologia generatywnych SI szybko rozwija się w ostatnich latach, były dyrektor Salesforce, Richard Socher, uważa, że istnieje jeszcze miejsce na udoskonalenie. W podcastcie dla Harvard Business Review Socher omówił, jak możemy podnieść poziom dużych modeli językowych, zmuszając je do reagowania na polecenia w postaci kodu, a nie tylko przewidywania następnego tokenu.

Obecnie duże modele językowe polegają na przewidywaniu następnego tokenu na podstawie wcześniejszych danych. Chociaż te modele wykazują imponującą zdolność do rozumienia tekstu i programowania, często cierpią na halucynacje, w których generują błędy faktograficzne, jakby były prawdziwe. Staje się to szczególnie problematyczne w przypadku skomplikowanych pytań matematycznych.

Socher przedstawił przykład pytania, z którym duży model językowy mógłby mieć trudności: „Jeśli dałbym dziecku 5000 dolarów na początku życia do zainwestowania w fundusz indeksowy bez opłat i zakładając pewien procent rocznych zwrotów, ile będą mieli w wieku od dwóch do pięciu lat?” Zamiast dokładnie rozważać pytanie i wykonywać niezbędne obliczenia, model wygenerowałby tekst na podstawie podobnych pytań, z którymi miał już do czynienia.

Aby pokonać to ograniczenie, Socher proponuje „wymuszenie” przetłumaczenia pytania przez model na kod komputerowy i wygenerowanie odpowiedzi na podstawie tego kodu. Dzięki temu model ma większą szansę udzielić dokładnej odpowiedzi. Socher wspomniał, że w swojej wyszukiwarce You.com opartej na SI, udało im się przetłumaczyć pytania na kod Pythona.

W przeciwieństwie do powszechnego podejścia polegającego na skalowaniu danych i mocy obliczeniowej, Socher sugeruje, że programowanie odegra kluczową rolę w rozwoju dużych modeli językowych. Nauczając tych modeli kodowania, zyskają one głębsze zrozumienie i bardziej wszechstronne zdolności do rozwiązywania problemów. To podejście programistyczne umożliwi im radzenie sobie z bardziej skomplikowanymi zadaniami w przyszłości.

W miarę zaostrzania się konkurencji między dużymi modelami językowymi, takimi jak GPT-4 firmy OpenAI i Gemini firmy Google, perspektywa Sochera przedstawia świeże spojrzenie na rozwijanie możliwości SI. Zamiast polegać wyłącznie na skalowaniu danych, wymuszenie kodowania przez modele SI może odblokować ich pełny potencjał i prowadzić do znacznych postępów w tej dziedzinie.

Często zadawane pytania (FAQ) dotyczące poprawy dużych modeli językowych poprzez kodowanie

P: Jaki jest wyzwanie z istniejącymi dużymi modelami językowymi?
O: Obecne duże modele językowe mają ograniczenia w generowaniu dokładnych odpowiedzi na skomplikowane pytania, zwłaszcza dotyczące obliczeń matematycznych. Często cierpią na halucynacje, w których generują błędy faktograficzne, jakby były prawdziwe.

P: Jaka jest zaproponowana rozwiązanie tych ograniczeń?
O: Richard Socher proponuje „wymuszenie” tłumaczenia pytań przez duże modele językowe na kod komputerowy i generowanie odpowiedzi na podstawie tego kodu. Dzięki temu modele mają większą szansę na dostarczenie dokładnych odpowiedzi.

P: W jaki sposób tłumaczenie pytań na kod poprawia modele?
O: Tłumaczenie pytań na kod pomaga modelom zyskać głębsze zrozumienie pytań i umożliwia im wykonywanie niezbędnych obliczeń. To podejście zwiększa ich zdolności do rozwiązywania problemów i zwiększa prawdopodobieństwo dostarczenia dokładnych odpowiedzi.

P: Czy to podejście zostało zastosowane w jakiejkolwiek wyszukiwarce opartej na SI?
O: Tak, w You.com, wyszukiwarce opartej na SI, udało się skutecznie przetłumaczyć pytania na kod Pythona w celu poprawy dokładności odpowiedzi.

P: Jak różni się to podejście programistyczne od tradycyjnego skupienia się na skalowaniu danych i mocy obliczeniowej?
O: Socher sugeruje, że nauczanie dużych modeli językowych kodowania będzie kluczowe dla rozwoju ich możliwości, zamiast polegać wyłącznie na skalowaniu danych. Poprzez programowanie modeli, zyskują one głębsze zrozumienie i bardziej wszechstronne zdolności do rozwiązywania problemów skomplikowanych zadań w przyszłości.

P: Jak perspektywa Sochera wyróżnia się w konkurencji między dużymi modelami językowymi?
O: Perspektywa Sochera wprowadza świeże spojrzenie na rozwijanie możliwości SI. Zamiast polegać wyłącznie na skalowaniu danych, wymuszenie kodowania przez modele SI może odblokować ich pełny potencjał i prowadzić do znaczących postępów w tej dziedzinie.

Terminologia/Jargon:
– Technologia generatywna SI: Odnosi się do modeli SI zdolnych do generowania oryginalnej treści, tworząc nowe dane na podstawie wzorców i przykładów z istniejących danych.
– Modele językowe: Modele SI specjalnie zaprojektowane do generowania i rozumienia języka ludzkiego.
– Halucynacje: W kontekście modeli językowych SI oznacza generowanie błędów faktograficznych, jakby były prawdziwe.
– Token: W modelach językowych, token odnosi się do segmentu tekstu, zwykle słowa lub znaku.
– Kod Pythona: Język programowania, który Socher przykłada jako przykład tłumaczenia kodu dla poprawy dużych modeli językowych.

Sugerowane powiązane linki:
OpenAI – oficjalna strona OpenAI, znanej ze swoich dużych modeli językowych, takich jak GPT-4.
Google – oficjalna strona Google, firmy stojącej za dużymi modelami językowymi, takimi jak Gemini.

The source of the article is from the blog shakirabrasil.info