Американская компания OpenAI, занимающаяся разработками в области искусственного интеллекта (ИИ) на этой неделе представила новую, еще более продвинутую версию своего главного продукта — мультимодальной большой языковой модели (чат-бота), которая получила название GPT-4o. Она способна взаимодействовать с человеком не только посредством текста и изображения, но и вести в ним максимально реалистичный голосовой разговор. По оценке агентства Reuters, «это последний шаг, который позволит OpenAI удержать лидирующие позиции в области ИИ в мире».
Контекст. Популярный чат-бот ChatGPT разрабатывается компанией OpenAI при поддержке софтверного гиганта Microsoft, инвестировавшего в проект более $10 млрд. Появление ChatGPT вызвало гонку среди крупнейших мировых технологических компаний за доминирование в развивающейся области генеративного искусственного интеллекта. Вскоре после запуска в конце 2022 года ChatGPT поставил рекорд, набрав 100 млн активных пользователей всего за месяц. Некоммерческая организация OpenAI, основанная в декабре 2015 года, сопредседателями которой стали Сэм Олтмен и Илон Маск, объявила своей целью создание «безопасного и полезного» ИИ. По оценке газеты Financial Times нынешняя стоимость OpenAI превышает $80 млрд.
Руководство OpenAI заявило, что новая версия чат-бота умеет реагировать на события «в реальном времени» и даже улавливать эмоции в голосе пользователя, что способно сделать GPT-4o (буква «о» в названии означает omni — всесторонний) не только незаменимым помощником, но и собеседником, почти неотличимым от реального человека.
Например, по уверениям технического директора OpenAI Миры Мурати (на фото), GPT-4o можно будет задать вопрос и прервать его, когда он отвечает. Также, по ее словам, в будущем этот чат-бот сможет «смотреть» спортивную игру в прямом эфире и объяснять вам ее правила.
«Это похоже на искусственный интеллект из фильмов. Разговор с компьютером никогда не казался мне по-настоящему естественным, но теперь это так», — написал в своем блоге генеральный директор OpenAI Сэм Олтмен.
Участники презентации GPT-4o, которая транслировалось в прямом эфире из офиса OpenAI в Сан-Франциско, говорят, что при демонстрации чат-бота сразу бросилась в глаза одна вещь — насколько быстро и динамично он реагировал на высказывания людей. В голосовом режиме GPT-4o может ответить человеку, говорящему с ним, в среднем за 320 миллисекунд, что недалеко от того, насколько быстро могут отвечать друг другу живые люди.
У GPT-4o также улучшены возможности распознавания изображений. Исходя из предложенной фотографии или экрана рабочего стола, он теперь сможет быстро отвечать на вопросы, вроде таких: «Что происходит в этом программном коде?» или «Рубашка какого бренда надета на этого человека?».
События на презентации описывают так: ведущие просили GPT-4o рассказать сказку на ночь или решить математическую задачу, а им отвечал сгенерированный веселый женский голос, который в какой-то момент начал неприкрыто заигрывать с собеседниками.
Когда ведущий сообщил чат-боту, что у него отличное настроение, потому что GPT-4o продемонстрировал, насколько он может быть «полезным и удивительным», чат-бот мгновенно ответил: «Ой, прекрати! Ты заставляешь меня краснеть!».
Впрочем, как пишет в своей колонке для Bloomberg популярный ютуб-блогер Рэйчел Мец, после презентации один из руководителей команды разработчиков GPT-4o Баррет Зоф рассказал ей, что языковая модель специально была запрограммирована вести себя как «веселая личность». Правда при этом от нее ожидали скорее бодрых и оптимистичных высказываний, а не откровенного кокетства.
Как бы то ни было, эксперты констатировали, что передовая разработка OpenAI «на световые годы» опережает продукцию конкурентов, включая Alexa от Amazon и Siri от Apple.
Мира Мурати заявила на презентации, что GPT-4o более рентабелен, чем предыдущие модели OpenAI, поэтому может предлагаться бесплатно. Кроме того, в интервью агентству Reuters она сообщила, что компания не намерена зарабатывать деньги на бесплатных пользователях за счет продажи рекламы.
Как пишет портал 3DNews, начиная с 13 мая GPT-4o доступен как платным, так и бесплатным пользователям ChatGPT, но для подписчиков платных тарифных планов ChatGPT Plus и Team ограничение на количество сообщений будет «в пять раз выше». При превышении лимита ChatGPT автоматически переключится на GPT-3.5 у бесплатных пользователей и на GPT-4 у платных.
Бесплатным пользователям ChatGPT при взаимодействии с GPT-4o станут доступны некоторые функции, которые прежде были только у платных подписчиков. В частности, обновленный чат-бот сможет искать информацию не только в своей ИИ-модели, но также в интернете; анализировать данные и создавать графики; работать с пользовательскими изображениями и файлами; а также лучше помнить прежние взаимодействия с пользователем.
Михаил Макаров