Mocne i słabe strony dużych modeli językowych

Albo dlaczego supersztuczna inteligencja będzie wymagała innego rodzaju technologii

Pomińmy długie wstępy i przejdźmy od razu do sedna: główną zaletą dużych modeli językowych (LLM) jest to, że niemal wszystko na świecie można w jakiś sposób opisać za pomocą tekstu. I jednocześnie jest to ich największe ograniczenie.

Tekst to uniwersalny kod – genialny wynalazek ludzkiego umysłu, który pozwala nam opisać niemal wszystko i zachować ten opis, aby inni mogli go zrozumieć. I nie tylko ludzie potrafią go zrozumieć – maszyny również. Używając wyłącznie tekstu, duże modele językowe mogą wchodzić w interakcje z ludźmi i otaczającym ich światem. Opisz fakty, obiekty, zdarzenia lub zjawiska słowami i zdaniami, a model będzie je „pojmował”. W pewnym sensie można zbudować „inteligentną maszynę” pozbawioną zmysłów, taką, która doświadcza świata wyłącznie jako tekstu.

Z drugiej strony, każdy opis tekstowy jest z natury przybliżony. Nieważne, jak bardzo staramy się być szczegółowi, sam tekst nigdy nie odda wszystkiego idealnie. Weźmy na przykład jabłko. Wyobraź sobie, że próbujesz opisać jego powierzchnię pod lupą – kształt i rozmiar każdej drobinki i każdej żyłki. Teraz wyobraź sobie, że robisz to samo pod mikroskopem. To zajęłoby tysiące słów – i to tylko dla powierzchni, niewielkiej części jabłka. Krótko mówiąc, tekst może dać jedynie częściowy obraz obiektu lub zjawiska, balansując między dokładnością a zwięzłością.

Dla ludzi nie stanowi to aż tak dużego problemu. Tekst zazwyczaj służy jako wskazówka, a resztę uzupełniamy doświadczeniem i wyobraźnią. Maszyny jednak nie mają żadnego „uziemienia” w rzeczywistości – nie mają bezpośredniego doświadczenia świata. Nie posiadają zmysłów, które pozwoliłyby im postrzegać go z pierwszej ręki. W rezultacie wiedza modeli opartych na LLM o świecie jest ograniczona. Po prostu brakuje im szczegółowych informacji.

Co więcej, większość ich szkoleń i doszkalania opiera się na danych z internetu. Oznacza to, że wielu informacji, których się uczą, nie można nazwać „kwalifikowanymi, precyzyjnymi ani szczegółowymi”. Warto zauważyć, że coraz większa część treści online jest generowana przez sztuczną inteligencję.

Gdybyśmy próbowali wyszkolić sztuczną inteligencję w oparciu o LLM, tak aby jej rozumienie świata i percepcja rzeczywistości były choć trochę porównywalne z ludzkimi, potrzebowalibyśmy ogromnej ilości tekstu – drobiazgowo szczegółowych opisów wszystkiego, czego człowiek może się nauczyć, rzucając okiem lub dotykając przedmiotu w ciągu kilku sekund. Oczywiście – i powyższy przykład jabłka doskonale to ilustruje – takie podejście byłoby niezwykle pracochłonne i ostatecznie prowadziłoby do ślepej uliczki. Zużyłoby ogromne zasoby i w końcu osiągnęłoby limit, a mimo to poziom szczegółowości nadal byłby daleki od zapewnienia maszynie ludzkiego rozumienia rzeczywistości.

Wniosek jest prosty. Modele LLM można wykorzystać do budowy różnych wyspecjalizowanych modeli sztucznej inteligencji (AI). Nie nadają się one jednak do stworzenia w pełni rozwiniętej, ogólnej SI, zdolnej do wykonywania wszystkich zadań ludzkich nawet na przeciętnym poziomie. I oczywiście nie nadają się do stworzenia silnej, ogólnej SI, która mogłaby prześcignąć ekspertów w każdej dziedzinie.

Krótko mówiąc, LLM to niesamowite, uniwersalne narzędzie, zbudowane na innym uniwersalnym narzędziu – tekście. Wciąż jest wiele możliwości ich udoskonalenia i rozszerzenia zakresu zastosowań. Jednak nawet teraz jest jasne, że mają poważne ograniczenia, które czynią je kiepską podstawą do tworzenia ogólnej sztucznej inteligencji, a co dopiero silnej, nadludzkiej sztucznej inteligencji.

Wydaje się prawdopodobne, że rozwiązanie tego problemu będzie wymagało innego rodzaju modelu – takiego, który może uczyć się poprzez bezpośrednią interakcję ze światem rzeczywistym, wykorzystując coś na kształt ludzkich zmysłów. Mimo to, można rozsądnie oczekiwać, że LLM nadal będą odgrywać ważną rolę w tych przyszłych systemach.

Temat zaawansowanych modeli sztucznej inteligencji jest tak fascynujący, że naprawdę zasługuje na osobną dyskusję.

Ten tekst został przetłumaczony maszynowo. Proszę nie oceniaj nas surowo, jeśli znajdziesz w nim błędy. Nasi lingwiści dokładają wszelkich starań, aby jak najszybciej pojawiło się tłumaczenie najwyższej jakości. Oryginał tego materiału można znaleźć, przechodząc na angielską wersję strony.