Компания Google разработала ИИ-систему Search-Augmented Factuality Evaluator (SAFE), целью которой является определение ошибок в данных, создаваемых другими моделями искусственного интеллекта, включая ChatGPT.
Большие языковые модели (LLM) используются в различных целях, вплоть до написания научных работ, однако они нередко ошибаются, приводя недостоверные сведения, и даже настаивают на их истинности. Новая разработка Google, используя поисковые запросы, анализирует и подтверждает или опровергает точность изложенных сведений. Компания обещает кардинально улучшить качество подтверждения данных в таких областях, как наука, медиа, образование и деловая среда.
Во время тестирования SAFE проверила 16 тысяч ответов нескольких сервисов на базе больших языковых моделей, среди которых Gemini, ChatGPT, Claude и PaLM-2, после чего исследователи сравнили результаты с выводами людей, занимавшихся этим вручную. Выводы SAFE на 72% совпали с мнениями людей, причем при анализе расхождений в 76%, ИИ оказывался прав.
Немаловажным достоинством работы SAFE является скорость обработки информации по результатам поиска. Это помогает оперативно подтвердить достоверность данных, что может сказаться на скорости исследований и развития науки.
Код SAFE опубликован на GitHub и доступен всем желающим.