Трудно переоценить прорыв, достигнутый китайцами в Tencent AI Lab. Без преувеличения можно сказать, что настал «момент AlphaGo Zero» для LLM. И это значит, что AGI уже совсем близко — практически за дверью.
Первый настоящий сверхразум был создан в 2017 году компанией DeepMind. Это ИИ-система AlphaGo Zero, достигшая сверхчеловеческого (недостижимого для людей) класса игры в шахматы, играя сама с собой. Ключевым фактором успеха было то, что при обучении AlphaGo Zero не использовались наборы данных, полученные от экспертов-людей. Именно игра с собой без какого-либо участия людей и позволила ИИ-системе больше не быть ограниченной пределами человеческих знаний. И она вышла за эти пределы, оставив человечество далеко позади.
Если это произошло еще в 2017-м, почему же мы не говорим, что сверхразум уже достигнут? Да потому, что AlphaGo Zero — это специализированный разум, достигший сверхчеловеческого уровня лишь в шахматах (а потом в Го и еще кое в чем). А настоящий сверхразум (в современном понимании) должен уметь если не все, то очень многое.
Появившиеся 2 года назад большие языковые модели (LLM) в этом смысле куда ближе к сверхразуму. Они могут очень-очень много: писать романы и картины, сдавать экзамены и анализировать научные гипотезы, общаться с людьми практически на равных… Но! Превосходить людей в чем-либо, кроме бесконечного (по нашим меркам) объема знаний, LLM пока не могут. И потому они еще далеко не сверхразум (ведь не считаем же мы сверхразумом Библиотеку Ленина, даже если к ней приделан автоматизированный поиск в ее фондах).
Причина, мешающая LLM стать сверхразумом, в том, что, обучаясь на человеческих данных, они ограничены пределами человеческих знаний.
И вот прорыв — исследователи Tencent AI Lab предложили и опробовали новый способ обучения LLM. Он называется «Самостоятельная состязательная языковая игра». Его суть в том, что обучение модели идет без полученных от людей данных. Вместо этого две копии LLM соревнуются между собой, играя в языковую игру под названием «Состязательное табу», придуманную китайцами для обучения ИИ еще в 2019 году.
Первые экспериментальные результаты впечатляют. Копии LLM, играя между собой, выходят на все более высокий уровень. На графике ниже показаны результаты игр в «Состязательное табу» против GPT-4 двух не самых сильных и существенно меньших моделей после первой, второй и третьей серии их обучения.
Как видите, класс существенно растет.
И кто знает, что будет, когда число самообучающих серий станет не 3, а 3 тысячи?
Сергей Карелов, IT-эксперт, автор Telegram-канала «Малоизвестное интересное»