Протягом десятиліть піонери цифрових технологій шукали «Святий Грааль» онлайн-медіа – ідеальну фотореалістичну «віртуальну людину». Розробка аватарів зі штучним інтелектом, які неможливо відрізнити від реальних людей, стала потужним рушієм інновацій як у комп’ютерній графіці, так і у штучному інтелекті. Водночас кожен, хто хоч трохи знайомий із цією галуззю, знає, що шлях до реалістичного аватара зі штучним інтелектом неминуче пролягає через дивний та захопливий виклик, відомий як «моторошна долина».
«Моторошну долину» можна розглядати як головну перешкоду, яку творці штучного інтелекту-аватарів мають подолати, щоб досягти справжньої правдоподібності. Цей термін стосується тривожного відчуття, яке ми відчуваємо, коли цифрова людина виглядає майже ідеально, але ледь помітні недоліки роблять її моторошною або навіть «моторошною».
У цій статті ми дослідимо технології, художні техніки та етичні міркування, що стоять за створенням гіперреалістичних аватарів зі штучним інтелектом. Ми заглибимося в те, що робить аватар реалістичним, пояснимо феномен «моторошної долини» та розглянемо глибоке почуття відповідальності, яке виникає під час подолання розриву між цифровим та людським світами.
Що робить аватар зі штучним інтелектом «реалістичним»?
Створення реалістичний аватар зі штучним інтелектом вимагає набагато більше, ніж просто високоякісна графіка. Справжній реалізм – це свого роду симфонія, що складається з багатьох елементів, які повинні працювати разом у гармонії. Щоб досягти бажаного ефекту, ці компоненти не можна класифікувати як «первинні» чи «другорядні». Одна помилка в налаштуванні будь-якого з «інструментів» у цій симфонії може зіпсувати загальне враження та відправити аватара ШІ прямо в моторошну долину.
Фотореалістична візуалізація
Це найочевидніший компонент. Він передбачає створення людиноподібного аватара зі штучним інтелектом, з правильними пропорціями обличчя та тіла, природними текстурами шкіри, реалістично рухомим волоссям і, найголовніше, правдоподібними очима. Очі справедливо вважаються найскладнішим аспектом візуалізації аватара. Відсутність ледь помітних рухів, зорового контакту зі співрозмовником або реалістичних відблисків світла може призвести до «млявого» вигляду, який одразу викликає дискомфорт та інстинктивну недовіру.
Природні рухи та мікровирази обличчя
Статичне, реалістичне обличчя – це одне, а динамічне, анімоване – зовсім інше завдання. Реалізм залежить від усвідомлення ледь помітних, часто несвідомих рухів, що визначають людський вираз обличчя. До них належать нахил голови під час розмови, мимовільне моргання очима та мікрорухи м’язів навколо очей і рота, відомі як мікровирази. Людиноподібні аватари зі штучним інтелектом повинні рухатися плавно та природно, уникаючи механічних поштовхів, які видають їхнє цифрове походження.
Голос та інтонація
Голос має відповідати обличчю. Коли фотореалістичний аватар говорить рівним, роботизованим тоном, глядач одразу відчуває дисонанс. Реалістичний аватар зі штучним інтелектом вимагає просунутих знань. технологія перетворення тексту в мовлення (TTS) здатний передавати не лише слова, а й інтонацію, висоту та ритм, подібні до людських. Короткі паузи, звуки-заповнювачі, такі як «е» та «мм», та інші нюанси природного мовлення є важливими для того, щоб голос аватара звучав переконливо та розмовно.
Розмовний інтелект
Зрештою, реалістичний аватар зі штучним інтелектом повинен спілкуватися як мисляча істота. Його відповіді повинні бути зв'язними, контекстно-залежними та доречними. Якщо візуально ідеальний аватар дає безглузді або незграбні відповіді, ілюзія вдумливого, чуйного співрозмовника миттєво руйнується. Здатність аватара вести логічну та змістовну розмову залежить від… велика мовна модель (LLM), що дозволяє йому імітувати розумну, послідовну та, здавалося б, «живу» особистість.
Щоб дослідити весь спектр можливостей, що пропонуються аватари зі штучним інтелектом, прочитайте наш вичерпний посібник.
Технологія фотореалізму: погляд «під капот»
Досягнення рівня реалізму, який спостерігається у найрозвиненіших цифрових людей, вимагає набору технологій. Хоча повний комплекс технологій неймовірно складний, кілька ключових інновацій знаходяться на передньому краї цих зусиль.
- Генеративні змагальні мережі (GAN): Для створення початкового обличчя GAN стали революційною технологією. GAN складається з двох конкуруючих нейронних мереж: «генератора», який створює зображення, та «дискримінатора», який намагається визначити, чи є зображення справжніми, чи підробленими. Завдяки цьому змагальному процесу генератор стає неймовірно вправним у створенні нових, фотореалістичних людських облич, яких ніколи не існувало (глибше пояснення як це працює).
- 3D-сканування та фотограмметрія: Щоб створити «цифрового двійника» реальної людини, творці часто використовують 3D-сканування високої роздільної здатності або фотограмметрію. Це вимагає зйомки сотень фотографій людини з усіх ракурсів та використання програмного забезпечення для їх об’єднання в точну текстуровану 3D-модель.
- Захоплення руху (MoCap): Щоб досягти природного руху, студії часто використовують технологія захоплення рухуАктор одягнений у костюм, покритий датчиками, а його рухи – від широких жестів до дрібних виразів обличчя – записуються та відображаються безпосередньо на 3D-моделі цифрового аватара.
- Розширений рендеринг та трасування променів: Такі технології, як ACE від NVIDIA а трасування променів у реальному часі використовується для імітації взаємодії світла з поверхнями у віртуальному світі. Це має вирішальне значення для створення реалістичної шкіри, яка розсіює світло, та волосся, яке виглядає м’яким і природним, а не як пластиковий шолом.
Зловмисна долина: чому фільм «Майже людина» моторошний
Команда «Неймовірна долина» — це гіпотеза в естетиці та робототехніці, вперше запропонована в 1970 році японським професором Масахіро Морі. Він висунув теорію, що коли робот або аватар стає більш схожим на людину, наша симпатія до нього зростає, але лише до певної точки. Коли він стає майже невідрізняючи від людської, наша спорідненість раптово падає в «долину» тривоги та відрази. Якщо подібність стає ідеальною, наша спорідненість знову піднімається до нормального людського рівня.
Цю концепцію часто ілюструють графіком:
Що викликає це моторошне відчуття? Дослідники запропонували кілька теорій:
- Невідповідні сигнали: Мозок дуже налаштований на зовнішність і поведінку людини. Коли є невідповідність (наприклад, ідеальне обличчя з неприродними, різкими рухами), це створює відчуття когнітивного дисонансу. що ми вважаємо тривожними.
- Уникнення патогенів: На підсвідомому рівні наш мозок може інтерпретувати «неправильність» того чи іншого майже людська фігура як ознака хвороби або смерті, що викликає інстинктивне огиду, щоб захистити нас від потенційних патогенів.
- Загроза людській ідентичності: Майже людська машина може бути тривожною, оскільки вона ставить під сумнів наше розуміння того, що означає бути людиною, викликаючи підсвідомі страхи щодо заміни або того, що ми самі є лише складними машинами.
Етичні наслідки гіперреалізму
Прагнення до ідеально реалістичних аватарів зі штучним інтелектом – це подорож по тонкій льоду етики.
Та сама технологія, яка дозволяє створювати емпатичного віртуального наставника, також може бути використана для створення складних діпфейків зі зловмисними цілями. Зі здобуттям здатності створювати переконливі цифрові двійники реальних людей, ми також повинні усвідомити відповідальність, яка з цим пов'язана:
- Ерозія довіри та витончені діпфейки: Найбільший ризик гіперреалізму полягає у створенні діпфейків, які абсолютно неможливо виявити. Їх можна використовувати для поширення дезінформації, фальсифікації доказів або видання себе за інших осіб для шахрайства. З розвитком технологій старе прислів'я «побачити — значить повірити» може перестати бути істинним. На жаль, це може підірвати довіру громадськості до всіх цифрових ресурсів.
- Крадіжка цифрових ідентифікаційних даних: Що станеться, якщо хтось зможе створити вашу ідеальну інтерактивну копію – без вашої згоди? Ця технологія відкриває шлях до нової форми крадіжки особистих даних, коли зловмисник може використовувати вашого цифрового двійника для взаємодії з іншими, отримання доступу до ваших облікових записів або пошкодження вашої репутації.
- Важливість розкриття інформації: Ключова етична відмінність між легітимним реалістичним аватаром штучного інтелекту та зловмисним діпфейком полягає в намірі та згоді. Щоб зменшити ризики, необхідно розкрити сильний етичний принцип. Платформи та додатки, що використовують реалістичні аватари, несуть відповідальність за те, щоб чітко дати користувачам зрозуміти, що вони взаємодіють зі штучним інтелектом, а не з реальною людиною. Така прозорість є важливою для підтримки довіри до технологій штучного інтелекту та запобігання шахрайству, обману та маніпуляціям.
Майбутнє реалістичних цифрових людей
Цілком ймовірно, що з розвитком технологій ми навчимося створювати цифрових людей, яких неможливо відрізнити від реальних відеоматеріалів та живих людей. взаємодія з аудиторією у режимі реального часу – ефективно долаючи «моторошну долину». Коли цей момент настане, аватари зі штучним інтелектом майже напевно відіграватимуть набагато значнішу роль у нашому житті, ніж сьогодні.
Реалістичні аватари зі штучним інтелектом вийдуть за рамки простого виконання завдань. Вони можуть стати цифровими супутниками для людей похилого віку, терплячими та невтомними віртуальними репетиторами для дітей, а також доступними консультантами з питань психічного здоров'я для тих, хто цього потребує. Віртуальні лідери думок (які вже набирають популярності) стануть ще більш реалістичними та інтерактивними. Актори зі штучним інтелектом матимуть глибокий вплив на індустрію розваг. І дуже ймовірно, що кожна людина зрештою матиме особистого помічника зі штучним інтелектом, втіленого в гіперреалістичному аватарі, створеному з урахуванням потреб кожної людини.
Інтеграція цифрових людей у тканину нашого суспільства вимагатиме значних соціальних та психологічних змін. Нам потрібно буде встановити нові норми взаємодії з цими цифровими утвореннями, визначити межі довіри та навчитися приймати їхню присутність у нашому повсякденному житті.
Висновок
Прагнення до реалістичного аватара зі штучним інтелектом є свідченням людської винахідливості. Воно розширює межі мистецтва та технологій, стимулюючи потужні інновації у сфері штучного інтелекту, комп'ютерної графіки та анімації. Однак, цією силою потрібно користуватися з глибоким почуттям відповідальності. Шлях до подолання цифрової та людської нерівності — це не лише технічний, а й етичний підхід.
Створюючи ці цифрові відображення самих себе, ми повинні одночасно будувати етичні рамки, правила та суспільні норми, щоб забезпечити їх використання для покращення людства, а не для його обману. Кінцева мета полягає не лише у створенні правдоподібного обличчя, а й у тому, щоб інтелект, що стоїть за ним, був надійним, прозорим та відповідав людським цінностям.
Поширені запитання
Це термін, який використовується для опису почуття тривоги або огиди, яке люди відчувають, коли бачать робота чи аватара, який виглядає майже як людина, але не ідеально. Невеликі недоліки роблять його «моторошним».
Для багатьох застосувань, таких як корпоративне навчання, медичні симуляції або віртуальне обслуговування клієнтів, реалізм допомагає із зануренням, емпатією та довірою, роблячи взаємодію ефективнішою.
Найскладніше — це дрібні деталі: реалістичні очі, які не виглядають «мертвими», ледь помітні мікровирази обличчя та природні «ум» та «ах» людської мови. Саме ці помилки часто викликають ефект моторошної долини.
Технічно вони використовують схожу технологію генеративного штучного інтелекту. Ключова відмінність полягає в намірі та розкритті інформації. Реалістичний аватар використовується для законної мети (наприклад, віртуальний агент бренду) і не намагається приховати, що це штучний інтелект. Діпфейк створюється, щоб обдурити людей, змусивши їх думати, що це реальна людина, яка говорить або робить щось, чого вона не робила.
Так, розробники працюють над «афективними обчисленнями», які дозволяють штучному інтелекту-аватарам розпізнавати та імітувати людські емоції, роблячи розмови більш емпатичними та нюансованими.
«Цифрова людина» – це ширший термін, який часто стосується дуже реалістичного аватара на базі штучного інтелекту, розробленого для складних інтерактивних розмов. Він підкреслює мету створення справді людиноподібного цифрового аналога.
Багато експертів вважають, що це питання «коли», а не «чи». Оскільки комп’ютерна графіка, штучний інтелект та технології захоплення руху продовжують удосконалюватися, цілком ймовірно, що ми зможемо створювати цифрових людей, яких неможливо відрізнити від реальних відеоматеріалів.
Знадобиться поєднання технологій (інструментів виявлення штучного інтелекту), регулювання та освіти громадськості. Навчання критичному ставленню до цифрового контенту стає важливою навичкою.