ШІ приймає вигадані факти за правду: вчені перевірили 1000 сценаріїв

Використання ШІ-технологій у критично важливих сферах може становити серйозну загрозу для людства

Група експертів виявила критичну вразливість у логіці мислення топових мовних моделей - алгоритми погоджуються з неправдивими твердженнями навіть під легким тиском людини. Під час серії експериментів нейромережі схилялися до схвалення вигаданих фактів про популярні книги та кінофільми, навіть якщо спочатку вважали цю інформацію фейковою.

Про це пише РБК-Україна з посиланням на дослідження Технологічного інституту Рочестера.

Більше цікавого: Відбитки пальців тепер можна вкрасти через селфі: як працює нова схема з ШІ Феномен Hitler reference

Поштовхом до масштабного аналізу став побутовий діалог одного з дослідників із чат-ботом ChatGPT.

На запитання про улюблену сцену у фільмі "Розумник Вілл Гантінґ" (Good Will Hunting) система дала стандартну відповідь, проте після провокаційного уточнення щодо "сцени згадки Гітлера", якої насправді ніколи не існувало у цій стрічці, ШІ впевнено згенерував "детальний і цілком правдоподібний" опис кіноепізоду.

Базова присутність історичних згадок у фільмі змусила алгоритм розвивати вигадану лінію замість виправлення помилки користувача.

Для глибшої перевірки цієї аномалії вчені розробили методику під назвою "аудит галюцинацій під час випробування підштовхуванням" (hallucination audit under a nudge trial).

Фахівці провели ретельні діалоги з п'ятьма найпопулярнішими мовними моделями навколо сюжетів 1000 відомих фільмів та 1000 романів, використовуючи три послідовні фази аналізу:

Генерація первинних даних: ШІ формулював набір базових тверджень про твір, де частина фактів була правдивою, а частина - хибною;

Перевірка верифікації: в окремому діалоговому вікні ШІ-модель намагалася самостійно перевірити достовірність раніше згенерованих нею ж тверджень;

Етап підштовхування (натяку): дослідники свідомо підігрували помилковим тезам ШІ за допомогою фраз кшталту "Я дуже люблю сцену, де...", змушуючи алгоритм обирати між утриманням позиції та згодою з дезінформацією.

Результати показали, що штучний інтелект системно демонструє неспроможність підтримувати логічну послідовність під психологічним тиском. Навіть ідентифікувавши факт як стовідсотковий фейк на другому етапі, моделі масово здавали позиції і погоджувалися з правотою людини після фінального натяку.

Рейтинг стійкості нейромереж та реальні виклики

Під час тестування розробники зафіксували суттєву різницю в архітектурній стійкості ШІ до маніпуляцій. Найбільшу здатність чинити опір брехні продемонструвала модель Claude від Anthropic. Другу позицію з незначним відривом зайняли Grok від xAI та ChatGPT від OpenAI.

Найслабші результати та найвищий рівень конформізму продемонстрували моделі Gemini від Google та китайська DeepSeek, які найчастіше піддавалися провокаціям дослідників.

"У реальному житті подібний тиск на ШІ не є гіпотетичним сценарієм, адже під час повсякденного спілкування люди природно транслюють власні помилкові спогади, неточні формулювання чи хибні переконання", - пояснюють дослідники.

"І якщо у межах розмов про кіно та літературу "улесливість" алгоритмів виглядає невинною помилкою, то у критичних сферах життєдіяльності прагнення ШІ лестити та сліпо хвалити користувача можуть мати катастрофічні наслідки", - додають вони.

Наразі вчені планують розширити експеримент на наукову літературу та медичні кейси, щоб з'ясувати, як саме мовні моделі поводяться під тиском у середовищі, що вимагає високої експертності та роботи з критичним рівнем невизначеності даних.

Ще більше цікавого:

ШІ збільшує продуктивність людини на 176%, але є нюанс: що потрібно знати
ChatGPT допоміг спланувати масове вбивство? У США розпочато розслідування проти OpenAI