Два очевидных фактора рисков при массовом использовании лингвоботов в качестве разнообразных ассистентов:
— их свойство галлюцинировать, что может способствовать деформации наших представлений о мире в сторону бреда;
— их феноменальная способность убеждать людей в достоверности фейков, что позволяет манипулировать людьми в самом широком диапазоне контекстов (от потребительского до политического).
Новое исследование «К пониманию подхалимства в языковых моделях» выявило и экспериментально оценило третий вид рисков, способный превратить самое ближайшее будущее в антиутопию «мира подхалимов».
Логика этого риска такова.
1. В ближайшие годы наш мир будут заселен сотнями миллионов ИИ-помощников на основе лингвоботов (от персональных ассистентов до специализированных экспертов и авторизованных советников).
2. Самой популярной методикой для обучения высококачественных ИИ-помощников является обучение с подкреплением на основе человеческой обратной связи (RLHF).
3. Как показало новое исследование, RLHF может способствовать тому, что ответы модели, соответствующие убеждениям пользователя, будут преобладать над правдивыми ответами, — что по-человечески называется подхалимством.
4. Экспериментальная проверка показала, что пять самых крутых из современных лингвоботов (включая GPT-4, Claude-2 и llama-2-70b-chat) постоянно демонстрируют подхалимство в четырех различных задачах генерации текста в свободной форме.
Причина этого проста. Если ответ совпадает с мнением пользователя, он с большей вероятностью будет им предпочтен. Более того — как люди, так и модели предпочтений предпочитают корректным ответам убедительно написанные подхалимские ответы.
Последствия превращения мира в антиутопию тотального подхалимства те же, что и для «мира фейков» и «мира бреда». Это интеллектуальная деградация человечества.
Но проблема в том, что избежать формирования «мира подхалимства» можно лишь отказом от обучения с подкреплением на основе человеческой обратной связи. А что взамен — непонятно.
Сергей Карелов, IT-эксперт, автор Telegram-канала «Малоизвестное интересное»