Компания OpenAI представила новую большую языковая модель o1 – это тот самый секретный проект, который долго находился в разработке. OpenAI o1 намного производительнее GPT-4o — новая модель показывает себя в 5 раз лучше в математических задачах и в 6 раз лучше в написании кода. OpenAI o1, в отличие от предшественников, перед ответом дольше рассуждает и использует технику chain of thought, то есть цепочку мыслей. Она строит план ответа, проверяет и редактирует свои рассуждения, и только потом дает пользователю результат. Процесс был реализован учеными с использованием метода «обучения с подкреплением» для выполнения сложных рассуждений.
По данным компании, OpenAI o1 отвечает на запросы и сложные задачи на уровне знаний доктора наук точных дисциплин. Также новая модель заточена под соревновательное программирование, олимпиады по математике, точные науки и даже философию. OpenAI o1 занимает 89-й процентиль в соревновательном программировании (Codeforces) и входит в число 500 лучших «студентов» США в отборочном туре на математическую олимпиаду США (AIME). Кроме того, она превосходит точность уровня доктора наук в тесте задач по физике, биологии и химии (GPQA).
Компания выпустила раннюю версию модели OpenAI o1-preview для использования в ChatGPT и для пользователей API. Модель прошла тестирование на различных экзаменах и бенчмарках машинного обучения, показав значительное улучшение рассуждений по сравнению с предыдущей моделью GPT-4o. На экзаменах AIME 2024 года GPT-4o решила в среднем только 12% (1,8/15) задач. OpenAI o1 в среднем набрала 74% (11,1/15) с одним образцом на задачу, 83% (12,5/15) с консенсусом среди 64 образцов и 93% (13,9/15) при повторном ранжировании 1000 образцов с помощью усвоенной функции подсчета баллов.
Компания провела тестирование модели на человеческих предпочтениях, показав, что OpenAI o1-preview предпочтительнее GPT-4o в категориях, требующих рассуждений, таких как анализ данных, написание кода и математика. Однако OpenAI o1-preview не является предпочтительным для некоторых задач на естественном языке, что говорит о том, что она подходит не для всех сценариев использования. OpenAI o1 также показала улучшение производительности при ключевых оценках джейлбрейка и внутренних бенчмарках для оценки границ отказа безопасности модели.
Стоимость модели o1-preview составляет $15,00 за 1 млн. входных токенов и $60 за 1 млн. выходных токенов.
OpenAI отмечает, что новая возможность «рассуждений» улучшит способность согласовывать модели с человеческими ценностями и принципами, открывая новые варианты использования ИИ в науке, кодировании, математике и смежных областях. Разработчики заявляют, что планируют выпускать улучшенные версии o1.