Або чому для Супер-ШІ знадобиться інший тип технології
Пропустимо довгі вступи та перейдемо одразу до суті: головна сила моделей великих мов (LLM) полягає в тому, що майже все у світі можна певним чином описати за допомогою тексту. І, водночас, це їхнє найбільше обмеження.
Текст — це універсальний код — блискучий винахід людського розуму, який дозволяє нам описувати майже все та зберігати цей опис, щоб інші могли це зрозуміти. І не тільки люди можуть його зрозуміти — машини також. Використовуючи лише текст, великі мовні моделі можуть взаємодіяти з людьми та навколишнім світом. Описуйте факти, об'єкти, події чи явища словами та реченнями, і модель може їх «схопити». У певному сенсі, можна побудувати «інтелектуальну машину» без органів чуття, таку, яка сприймає світ повністю як текст.
З іншого боку, будь-який текстовий опис за своєю суттю є приблизним. Якими б детальними ми не намагалися бути, сам по собі текст ніколи не зможе ідеально передати все. Візьмемо, наприклад, яблуко. Уявіть, що ви намагаєтеся описати його поверхню під лупою — форму та розмір кожної цятки та кожної прожилки. Тепер уявіть, що ви робите те саме під мікроскопом. Це зайняло б тисячі слів — і це лише для поверхні, крихітної частини яблука. Коротше кажучи, текст може дати лише часткове уявлення про об'єкт чи явище, балансуючи між точністю та лаконічністю.
Для людей це не така вже й велика проблема. Текст зазвичай служить підказкою, а решту ми заповнюємо досвідом та уявою. Однак машини не мають «підґрунтя» в реальності — немає безпосереднього досвіду світу. У них немає органів чуття, щоб сприймати його безпосередньо. Як наслідок, знання про світ, які мають моделі на основі LLM, обмежені. Їм просто бракує дрібних деталей.
Крім того, більшість їхнього навчання та перепідготовки базується на даних з Інтернету. Це означає, що багато інформації, яку вони отримують, насправді не можна назвати «кваліфікованою, точною чи детальною». І варто зазначити, що дедалі більша частина онлайн-контенту сама по собі генерується штучним інтелектом.
Якби ми спробували навчити штучний інтелект на основі методів повного управління (LLM) так, щоб його розуміння світу та сприйняття реальності були хоч віддалено порівнянними з людськими, нам знадобилася б величезна кількість тексту — ретельно детальні описи всього, що людина може вивчити лише за швидкий погляд або кілька секунд обробки об'єкта. Очевидно — і приклад з яблуком вище чудово це ілюструє — такий підхід був би надзвичайно трудомістким і, зрештою, глухим кутом. Він споживав би величезну кількість ресурсів і зрештою досяг би межі, проте рівень деталізації все одно був би далеко не таким, щоб дати машині розуміння реальності, подібне до людського.
Висновок простий. LLM можна використовувати для побудови різних спеціалізованих моделей ШІ. Але вони не підходять для створення повноцінного загального ШІ, здатного виконувати всі людські завдання навіть на середньому рівні. І, звичайно, вони не підходять для створення сильного загального ШІ, який міг би перевершити експертів-людей у кожній галузі.
Коротше кажучи, LLM – це неймовірний універсальний інструмент, побудований на іншому універсальному інструменті – тексті. Все ще є багато можливостей для їх удосконалення та розширення способів їх використання. Але навіть зараз очевидно, що вони мають серйозні обмеження, які роблять їх поганою основою для створення загального ШІ, не кажучи вже про потужний, надлюдський ШІ.
Здається ймовірним, що для вирішення цієї проблеми знадобиться інший тип моделі — такої, яка може навчатися через пряму взаємодію з реальним світом, використовуючи щось на зразок людських органів чуття. Тим не менш, цілком розумно очікувати, що LLM (магістр права) все ще відіграватиме важливу роль у цих майбутніх системах.
Тема передових моделей штучного інтелекту настільки захоплива, що вона справді заслуговує на окреме обговорення.