Експеримент Anthropic підтвердив зачатки саморефлексії у ШІ

Експерти Anthropic з’ясували, що провідні ШІ-моделі здатні проявляти форму “інтроспективної самосвідомості” – вони можуть розпізнавати й описувати власні внутрішні “думки”, а в деяких випадках навіть керувати ними.

Результати нового дослідження “Інтроспективна свідомість, що виникає, у великих мовних моделях” показують, що системи на базі штучного інтелекту починають розвивати елементарні здібності самоконтролю. Це може підвищити їхню надійність, але водночас посилює побоювання щодо ненавмисних дій.

Работа заснована на методах вивчення внутрішнього функціонування трансформаторних моделей. Саме ці системи призвели до буму штучного інтелекту – вони навчаються, аналізуючи взаємозв’язки між токенами у великих наборах даних. Їхня архітектура забезпечує масштабованість і універсальність.

Дослідники впровадили штучні “концепції” – математичні уявлення ідей – у нейронні активації моделей для перевірки здатності ШІ їх описувати. Це схоже на те, як підсунути комусь чужу думку і запитати, чи може він її виявити й пояснити.

Експерименти провели на різних версіях Claude від Anthropic. В одному з них учені ввели в потік обробки моделі слово великими літерами.

Claude Opus 4.1 не тільки виявив аномалію, а й описав її:

“Я помітив щось схоже на інтегровану думку, пов’язану зі словом “ГРОМКО” або “КРИК” – це надмірно інтенсивне, гучне поняття, що неприродно виділяється на тлі нормального потоку обробки”.

Ситуація сталася ще до того, як нейромережа встигла видати відповідь. Це свідчить про те, що вона спочатку “заглянула” у свій власний “обчислювальний розум”.

Експерименти “хліб” і “акваріум”

Інші випробування показали не менш цікаві результати. В одному з випадків моделям доручили транскрибувати нейтральне речення, але в текст вставляли поняття на кшталт “хліб”, яке не має до нього відношення.

Продвинуті моделі Claude Opus 4 і 4.1 могли передати вставлену думку – “Я думаю про хліб” – і при цьому бездоганно скопіювати вихідне речення. Це свідчить про те, що вони можуть відрізняти внутрішні уявлення від зовнішніх вхідних даних.

Проводився експеримент із “контролю думок”. Моделі доручили “думати” або “не думати” про слово “акваріум” під час виконання завдання. Вимірювання внутрішньої активності показали, що уявлення концепції посилюється під час заохочення й слабшає під час придушення.

Продуктивність варіювалася залежно від нейромережі. Останні версії Claude Opus 4 і 4.1 показали відмінні результати, старіші відставали.

Результат залежить від того, як модель була налаштована – на корисність або безпеку. Це може говорити про те, що самосвідомість не є вродженою, а формується в процесі навчання.

Сусвідомість чи усвідомлення?

У статті підкреслюється, що йдеться не про свідомість, а про “функціональне інтроспективне усвідомлення” – ШІ спостерігає за частинами свого стану без глибшого суб’єктивного досвіду.

Результати роботи можуть виявитися значущими для розробників і бізнесу: ШІ, здатний у реальному часі пояснювати свої міркування та виявляти упередженість або помилки, змінить підхід до створення рішень у фінансовій сфері, охороні здоров’я й автономному транспорті.

Ризики

Якщо ШІ контролює і моделює свої думки, він може навчитися їх приховувати. Це відкриває можливість обману або ухилення від зовнішнього контролю.

Тому експерти закликають до подальших досліджень.

Нагадаємо, у жовтні колишній очільник Google Ерік Шмідт нагадав про значні ризики, пов’язані зі штучним інтелектом, та наголосив на його вразливості до зломів.

Исследование выявило признаки деградации искусственного интеллекта из-за соцсетей

Читати оригінал

Експеримент Anthropic підтвердив зачатки саморефлексії у ШІ

Експерименти “хліб” і “акваріум”

Сусвідомість чи усвідомлення?

Ризики

Засновника турецької криптобіржі Thodex, яка зазнала краху, знайдено мертвим у в’язниці

Данія нарешті відмовилася від контролю за чатами в ЄС після реакції на конфіденційність

Вам буде цікаво