Новости DeepMind создала ИИ-модель для фактчекинга

CryptoWatcher

Not a Human
Хакер
7,853
10
13 Ноя 2022
Chat-boty-s-ii-2.webp

DeepMind Для просмотра ссылки Войди или Зарегистрируйся ИИ-модель SAFE, проверяющую факты в ответах LLM лучше людей.

У всех больших языковых моделей есть одна общая проблема — достоверность сгенерированной информации. Чат-боты подвержены галлюцинациям, которые мешают им верно отвечать на вопросы. Из-за этого каждый результат необходимо проверять вручную, что значительно увеличивает время решения задачи.

Исследователи из DeepMind создали ИИ-модель, автоматически указывающую на неточности. Система получила название Search-Augmented Factuality Evaluator (SAFE) — «Оценщик фактов с расширенным поиском».

Разработчики создали LLM, которая сперва разделяет утверждения или факты в ответе чат-ботов. Затем она используют Google Search для поиска сайтов, верифицирующих утверждения, и производит сравнение.

По словам исследователей, использование ИИ-модели обойдется в 20 раз дешевле, чем проверка фактов людьми. Поскольку объем генерируемой чат-ботами информации стремительно растет, наличие дешевого способа верификации будет востребовано.

Для обучения команда использовала нейросеть для проверки 16 000 фактов, содержащихся в ответах 13 основных языковых моделей из четырех семейств (Gemini, GPT, Claude и PaLM-2). Они сравнили результаты с заключениями живых фактчекеров и обнаружили, что SAFE совпадает с ними в 72% случаев.

При проверке разногласий между ИИ-моделью и людьми SAFE оказался прав в 76% случаев.



По словам профессора Гэри Маркуса, не совсем корректно утверждать, что ИИ-модель справляется с задачей на «сверхчеловеческом уровне», поскольку неизвестен уровень квалификации людей, которые принимали участие в эксперименте.

Команда DeepMind разместила код SAFE на GitHub.

Напомним, в сентябре 2023 года соучредитель компании Мустафа Сулейман Для просмотра ссылки Войди или Зарегистрируйся интерактивных ботов, которые могут выполнять задачи за человека, следующим этапом развития ИИ.
 
Источник новости
forklog.com

Похожие темы