Уступают только человеку: языковые модели от SberDevices стали лучшими в мире по пониманию текстов н

Александр Базиян

Опубликовал(а): Александр Базиян 25 августа 2021 г. - Размещено в Корпоративный блог - просмотров 1 246

Разработанная SberDevices текстовая модель ruRoberta-large finetune стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, уступая по точности только человеку. Также в шестёрку лидеров вошли ещё 4 модели от SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune.

Успешно обучив языковую модель ruBERT, в Сбере стали развивать её более продвинутую версию — ruRoBERTa. Архитектурно это тот же BERT, обученный на большом корпусе текста, только на задачу восстановления маскированных токенов, на большом батч-сайзе и с токенизатором BBPE от нейросети ruGPT-3. Обучение модели на суперкомпьютере «Кристофари» заняло три недели, итоговый датасет (250 Гб текста) был похож на тот, что использовался для ruGPT-3, однако из него был удалён английский и часть «грязного» Common Crawl.

Лидерборд Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.

Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления — диагностического датасета. Он отражает лингвистические феномены языка и показывает насколько модель ruRoberta-large finetune понимает те или иные его особенности. Высокий скор (LiDiRus) говорит о том, что модель не просто запомнила задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов русского языка.

Каждая модель также оценивается посредством различных заданий, среди которых DaNetQA — набор вопросов на здравый смысл и знание, с ответом «да» или «нет», RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.

Лучшие специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки мы разработали первый в своём роде лидерборд Russian SuperGLUE, который чётко показывает прогресс в данной работе. Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки.

Давид Рафаловский, Исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии»

Создать аккаунт

Имя

E-mail

Вы будете использовать Ваш адрес электронной почты для входа.

Пароль

Пароль должен состоять не менее чем из 6 символов и содержать одну заглавную и одну строчную букву, одну цифру и один специальный символ. Пароль не должен содержать символы: \ , / : .

Пароль еще раз

Введите ваш пароль для подтверждения

Адрес профиля

Это будет в конце ссылки на ваш профиль, например:
http://marpeople.com/profile/yourname

Часовой пояс

Язык

Регистрируясь, я подтверждаю своё согласие с правилами пользования MarketingPeople.

Уступают только человеку: языковые модели от SberDevices стали лучшими в мире по пониманию текстов н

Создать аккаунт

Вход в Сообщество маркетологов