Сила и слабость Больших языковых моделей

Или почему для Супер-ИИ нужна другая технология

Без длинных предисловий сразу скажем: главное достоинство Больших языковых моделей (Large Language Model, LLM) в том, что всё в мире можно описать с помощью текстов. И это же их главный недостаток.

С одной стороны, текст — это универсальный код. Гениальное изобретение человеческого разума, позволяющее описать практически всё что угодно и при этом сохранить это описание, чтобы познакомить с ним других людей. И не только людей, но и машину. Пользуясь только текстом, большие языковые модели способны взаимодействовать с людьми и окружающим миром. Достаточно описать словами и предложениями факты, объекты, события и явления. По сути, можно конструировать “умную машину” без органов чувств — воспринимающую мир как текст.

С другой стороны, любое текстовое описание приблизительно. Как бы подробно мы ни описывали какой-то объект, полной точности с помощью текста добиться просто невозможно. Возьмём, к примеру, яблоко. Представьте себе, что вам нужно описать его поверхность под увеличительным стеклом: форму и размер каждого пятнышка, каждой прожилки. А если взять для выполнения той же задачи микроскоп? Такое описание потребует многих тысяч слов. А ведь поверхность — это только часть яблока, причём небольшая. Говоря коротко, любой текст сам по себе даёт далеко не полное представление об объекте или явлении, являясь своего рода компромиссом между точностью описания и его объёмом.

В случае с людьми это небольшая проблема. В подавляющем большинстве случаев текст служит для нас своего рода подсказкой. Остальную картину мы дополняем, пользуясь личным опытом и воображением. Но у машины нет “заземления” в реальности и опыта взаимодействия с ней. Она не обладает необходимыми для этого органами чувств. В результате реальный уровень знаний о мире у моделей, основанных на БЯМ (LLM), — небольшой. Можно сказать, им очень не хватает детализации.

Более того, как правило, их обучение и переобучение производится на данных из интернета. То есть бо́льшую часть полученной ими информации сложно назвать “квалифицированными точными подробными описаниями”. При этом стоит учитывать, что всё больше интернет-контента является продуктом ИИ-генерации.

Если же поставить задачу обучить ИИ на основе БЯМ (LLM) так, чтобы его знания о мире и восприятие реальности были хотя бы приблизительно сопоставимы с человеческими, придётся создавать огромное количество текстов, подробно и детально описывающих для машины то, что человек узнаёт просто бросив мимолётный взгляд или пару секунд повертев предмет в руках. Очевидно — и это хорошо иллюстрирует приведённый выше пример с яблоком, — что это трудоёмкий и тупиковый путь. Он “съест” огромное количество ресурсов и рано или поздно упрётся в их нехватку, а детализация в описании всё равно будет недостаточной для того, чтобы дать машине представление о реальности, сопоставимое с человеческим.

Из этого следует простой вывод. На базе БЯМ (LLM) можно строить различные модели специализированного искусственного интеллекта. Но для создания полноценного универсального ИИ, способного хотя бы на среднем уровне выполнять все задачи человека, они не годятся. Как и, разумеется, для создания сильного универсального ИИ, превосходящего во всех областях мастеров и специалистов из числа людей.

Итого: БЯМ (LLM) — прекрасный универсальный инструмент, основанный на другом универсальном инструменте — тексте. Возможности его модернизации и расширения сфер применения ещё далеко не исчерпаны. Однако уже сегодня понятно, что у этого инструмента есть серьёзные ограничения, делающие его мало подходящим для создания универсального ИИ и тем более сильного универсального ИИ.

По всей видимости, для решения этой задачи нужны другие модели, способные обучаться на непосредственном взаимодействии с реальностью посредством аналогов человеческих органов чувств. Хотя логично предположить, что БЯМ (LLM) будут частью этих моделей.

Впрочем, тема перспективных моделей ИИ настолько интересна, что о ней лучше поговорить в отдельном тексте.