В ней есть динамический лидерборд, обновлённая кодовая база замеров, улучшенная система промптов и датасетов, поддержка API. Также в новой версии можно найти замеры десятков новых моделей, включая модели от OpenAI.
MERA (Multimodal Evaluation for Russian-language Architectures) — это крупнейший независимый открытый бенчмарк для оценки фундаментальных моделей русского языка. Его совместно разработали на площадке Альянса в сфере искусственного интеллекта исследователи со стороны индустрии (команды Сбербанка и MTS AI), а также академические партнёры Skoltech AI и НИУ ВШЭ.
В обновлённую версию бенчмарка входит 15 основных задач, на основе которых формируется рейтинг, и восемь открытых публичных датасетов.
С момента выпуска первой версии бенчмарком воспользовались десятки разработчиков моделей, которые отправили более тысячи сабмитов. Улучшить MERA удалось благодаря комментариям пользователей и отзывам участников NLP-сообщества. В будущем планируется добавить в MERA задачи для оценки распознавания изображений, аудио- и видеоматериалов.