Konfo

Альянс в сфере искусственного интеллекта представил новую версию бенчмарка MERA

Фото: © unsplash.com

В ней есть динамический лидерборд, обновлённая кодовая база замеров, улучшенная система промптов и датасетов, поддержка API. Также в новой версии можно найти замеры десятков новых моделей, включая модели от OpenAI.

MERA (Multimodal Evaluation for Russian-language Architectures) — это крупнейший независимый открытый бенчмарк для оценки фундаментальных моделей русского языка. Его совместно разработали на площадке Альянса в сфере искусственного интеллекта исследователи со стороны индустрии (команды Сбербанка и MTS AI), а также академические партнёры Skoltech AI и НИУ ВШЭ.

В обновлённую версию бенчмарка входит 15 основных задач, на основе которых формируется рейтинг, и восемь открытых публичных датасетов.

С момента выпуска первой версии бенчмарком воспользовались десятки разработчиков моделей, которые отправили более тысячи сабмитов. Улучшить MERA удалось благодаря комментариям пользователей и отзывам участников NLP-сообщества. В будущем планируется добавить в MERA задачи для оценки распознавания изображений, аудио- и видеоматериалов.

  • Комментарии
Загрузка комментариев...