spot_img
21 ноября, 2024
ДомойAI / MLClaude 3 Opus впервые превзошла GPT-4 в рейтинге языковых моделей

Claude 3 Opus впервые превзошла GPT-4 в рейтинге языковых моделей

На Chatbot Arena от lmsys – краудсорсинговой открытой платформе, где пользователи оценивают качество работы чат-ботов, ИИ-модель Claude 3 Opus компании Anthropic впервые превзошла GPT-4 от OpenAI. С момента запуска в 2023 году, GPT-4 удерживал лидерскую позицию на «арене чат-ботов». Он даже стал золотым стандартом, и системы с высшим рейтингом описываются как модели «класса GPT-4». «Король мертв», — написал в социальной сети X разработчик ПО Ник Добос (Nick Dobos).

В линейку Claude 3 входят три продукта — Haiku, Sonnet и Opus, которые различаются между собой возможностями и количеством параметров. Еще одно достижение компании Anthropic — появление Claude 3 Haiku в десятке лучших.

«Впервые на вершине рейтинга ИИ-модели не только от OpenAI: Opus для сложных задач, Haiku — для вариантов, когда нужно дешево и быстро. Это обнадеживает — от конкуренции разработчиков все только выиграют. Тем не менее, GPT-4 уже больше года, и конкуренты догнали ее только сейчас», — прокомментировал событие независимый исследователь ИИ Саймон Уиллисон (Simon Willison).

Оценивать большие языковые модели и чат-ботов, которые их используют, представляется сложной задачей. Кроме подсчета фактических ошибок, грамматических опечаток и скорости обработки, нет общепринятых объективных показателей. Chatbot Arena ценится исследователями ИИ за возможность более-менее объективно оценить эффективность чат-ботов.

Для составления рейтинга пользователям предлагается ввести запрос, после чего демонстрируются несколько результатов от неуказанных языковых моделей. Пользователь должен выбрать, какой результат он считает лучшим. Проведя тысячи сравнений, Chatbot Arena заполняет обновляемую рейтинговую таблицу. Используется рейтинговая система elo, широко применяемая для определения ранга игроков в играх с нулевой суммой, например, в шахматах.

На прошлой неделе стало известно, что OpenAI готовит новые модели, среди которых GPT-5, который уже почти готов к публичному дебюту и будет запущен в середине этого года.

НОВОСТИ ПО ТЕМЕ

СОЦИАЛЬНЫЕ СЕТИ

11,991ФанатыМне нравится
1,015ЧитателиЧитать
3,086ЧитателиЧитать
714ПодписчикиПодписаться
- Реклама -