Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную - «Умный Дом и решения» » Умный Дом и решения
Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную - «Умный Дом и решения»
Что такое Умный дом — это система домашних устройств, связанных между собой и выполняющих действия по команде человека или даже без его участия, по расписанию или сигналу от датчика. Некоторые умные дома управляются через приложения и голосом через умные колонки, другие — с помощью отдельных устройств. Задачи тоже могут быть разными: повысить комфорт, сэкономить время или обеспечить безопасность..

СБЕР

Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную - «Умный Дом и решения»

  • Мстислав
  • 21-мая-2021, 11:47
  • 0 комментариев
  • 2 390 просмотров

Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную

21 мая 2021. Помимо набора речевых данных на русском языке, датасет Golors включает в себя 1240 часов аудиоданных и обученную на них модель распознавания речи высокой точности. Датасет можно скачать на сайте  GitHub.


Сбер открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте GitHub.

Разрабатывать речевые технологии проще

Данные могут быть использованы для распознавания и синтеза речи. Сбер предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, а это более одного миллиона коротких записей русской речи и соответствующие транскрипции.

Над датасетом работала команда SberDevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную. Точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты.

Помимо данных, Сбер выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение восьми дней. Доступная для использования акустическая модель QuartzNet 15×5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos.

Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. Речевые технологии сейчас очень активно внедряются во всех сферах. При этом уже существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета не было. Теперь же есть доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, а обученная на них модель показывает очень высокое качество. Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологий

Денис ФилипповCTO SberDevices


SberDevices — компания экосистемы Сбера, центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия. Компания также фокусируется на создании умных устройств для конечных потребителей и корпоративных клиентов. SberDevices учреждена в мае 2019 года в качестве Департамента блока «Технологии» Сбербанка.

Другие пресс-релизы
15 июня 2023Пресс-релизЧисло проданных умных устройств Sber с ассистентом Салют превысило 1,5 млн

Число проданных умных устройств Sber с ассистентом Салют превысило полтора миллиона.

6 июня 2023Пресс-релизSberDevices и ГК Softline заключили соглашение о стратегическом сотрудничестве

В рамках партнерства ГК Softline и SberDevices предлагают рынку флагманские B2B-решения вендора: сервис видеоконференций SberJazz, корпоративный мессенджер Dialog, платформу речевых сервисов SaluteSpeech и конструктор для создания чат-ботов SaluteBot.

23 мая 2023Пресс-релизSberDevices получили награду за проект «Построение импортонезависимой аналитической платформы» на Data Award 2023

18 мая состоялось официальное объявление итогов и награждение лауреатов Премии Data Award 2023, учрежденной издательством «Открытые системы» и порталом об ИТ-менеджменте «Директор информационной службы». В номинации «За реализацию антикризисного проекта» победителем был признан проект SberDevices «Построение импортонезависимой аналитической платформы».


Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную 21 мая 2021. Помимо набора речевых данных на русском языке, датасет Golors включает в себя 1240 часов аудиоданных и обученную на них модель распознавания речи высокой точности. Датасет можно скачать на сайте GitHub. Сбер открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте GitHub. Разрабатывать речевые технологии проще Данные могут быть использованы для распознавания и синтеза речи. Сбер предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, а это более одного миллиона коротких записей русской речи и соответствующие транскрипции. Над датасетом работала команда SberDevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную. Точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты. Помимо данных, Сбер выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение восьми дней. Доступная для использования акустическая модель QuartzNet 15×5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos. Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. Речевые технологии сейчас очень активно внедряются во всех сферах. При этом уже существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета не было. Теперь же есть доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, а обученная на них модель показывает очень высокое качество. Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологийДенис ФилипповCTO SberDevices SberDevices — компания экосистемы Сбера, центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия. Компания также фокусируется на создании умных устройств для конечных потребителей и корпоративных клиентов. SberDevices учреждена в мае 2019 года в качестве Департамента блока «Технологии» Сбербанка.Другие пресс-релизы 15 июня 2023•Пресс-релизЧисло проданных умных устройств Sber с ассистентом Салют превысило 1,5 млнЧисло проданных умных устройств Sber с ассистентом Салют превысило полтора миллиона. 6 июня 2023•Пресс-релизSberDevices и ГК Softline заключили соглашение о стратегическом сотрудничествеВ рамках партнерства ГК Softline и SberDevices предлагают рынку флагманские B2B-решения вендора: сервис видеоконференций SberJazz, корпоративный мессенджер Dialog, платформу речевых сервисов SaluteSpeech и конструктор для создания чат-ботов SaluteBot. 23 мая 2023•Пресс-релизSberDevices получили награду за проект «Построение импортонезависимой аналитической платформы» на Data Award 202318 мая состоялось официальное объявление итогов и награждение лауреатов Премии Data Award 2023, учрежденной издательством «Открытые системы» и порталом об ИТ-менеджменте «Директор информационной службы». В номинации «За реализацию антикризисного проекта» победителем был признан проект SberDevices «Построение импортонезависимой аналитической платформы».

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.
Сбер открывает доступ к датасету Golos — самому большому набору речевых данных на русском, размеченному вручную 21 мая 2021. Помимо набора речевых данных на русском языке, датасет Golors включает в себя 1240 часов аудиоданных и обученную на них модель распознавания речи высокой точности. Датасет можно скачать на сайте GitHub. Сбер открывает доступ к датасету Golos — самому большому размеченному вручную набору речевых данных на русском языке, включающему 1240 часов аудиоданных, а также обученную на них модель распознавания речи, которая показывает точность, сравнимую с человеческой. Датасет можно скачать на сайте GitHub. Разрабатывать речевые технологии проще Данные могут быть использованы для распознавания и синтеза речи. Сбер предоставляет их по лицензии, допускающей использование в исследовательских и коммерческих целях, а это более одного миллиона коротких записей русской речи и соответствующие транскрипции. Над датасетом работала команда SberDevices: создание такой базы стало возможным благодаря разработке семейства виртуальных ассистентов Салют. Было сгенерировано более 1240 часов речи, похожей на запросы пользователей. Аудиофайлы записаны при помощи краудсорсинговой платформы и специальной студии. Датасет Golos составляют обезличенные записи, прослушанные и размеченные вручную. Точная разметка, полученная благодаря тройному перекрытию, позволяет создавать качественные речевые технологии и продукты. Помимо данных, Сбер выкладывает обученную на них модель распознавания речи. Она обучалась с использованием мощностей суперкомпьютера «Кристофари» от Сбера на 16 видеокартах Nvidia Tesla V100 в течение восьми дней. Доступная для использования акустическая модель QuartzNet 15×5 была обучена на данных датасетов Golos и Common Voice, а языковая модель KenLM построена на Common Crawl и аннотациях Golos. Открытие датасета Golos — это очень важный шаг для развития речевых технологий в России, и мы в Сбере рады, что можем применить свой опыт в этой области и продолжить наш тренд делиться своими наработками и технологиями с разработчиками и научным сообществом. Речевые технологии сейчас очень активно внедряются во всех сферах. При этом уже существует масса открытых данных на английском языке, но такого качественного русскоязычного датасета не было. Теперь же есть доступные данные и на русском языке, которые можно использовать для распознавания и синтеза речи, а обученная на них модель показывает очень высокое качество. Мы верим, что датасет Golos даст возможность научному сообществу России двигаться ещё быстрее в совершенствовании русскоязычных речевых технологийДенис ФилипповCTO SberDevices SberDevices — компания экосистемы Сбера, центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия. Компания также фокусируется на создании умных устройств для конечных потребителей и корпоративных клиентов. SberDevices учреждена в мае 2019 года в качестве Департамента блока «Технологии» Сбербанка.Другие пресс-релизы 15 июня 2023•Пресс-релизЧисло проданных умных устройств Sber с ассистентом Салют превысило 1,5 млнЧисло проданных умных устройств Sber с ассистентом Салют превысило полтора миллиона. 6 июня 2023•Пресс-релизSberDevices и ГК Softline заключили соглашение о стратегическом сотрудничествеВ рамках партнерства ГК Softline и SberDevices предлагают рынку флагманские B2B-решения вендора: сервис видеоконференций SberJazz, корпоративный мессенджер Dialog, платформу речевых сервисов SaluteSpeech и конструктор для создания чат-ботов SaluteBot. 23 мая 2023•Пресс-релизSberDevices получили награду за проект «Построение импортонезависимой аналитической платформы» на Data Award 202318 мая состоялось официальное объявление итогов и награждение лауреатов Премии Data Award 2023, учрежденной издательством «Открытые системы» и порталом об ИТ-менеджменте «Директор информационной службы». В номинации «За реализацию антикризисного проекта» победителем был признан проект SberDevices «Построение импортонезависимой аналитической платформы».


Комментарии (0)
img
Еще раз про целесообразность солнечных батарей - «Умный Дом и решения»

Поступил запрос на систему солнечных батарей, хотел бы на его примере ещё раз подумать о вопросах целесообразности солнечной электростанции в нашем

Категории сайта
Разное

Производитель и новинки производства

Это не только возможность управлять лампочкой со смартфона, а слаженная, незаметная для Вас, работа всех систем дома как инструментов в оркестре.

       
img
Смарт.ТВ / Aqara / Новинки / Умные Решения
Aqara выпустила серию замков U500 с поддержкой Matter over Thread - «Умный Дом и решения»

Компания Aqara начала продажи серии умных замков U500 в Великобритании. Линейка включает модели Smart Gate Lock U500, Smart Glass Door Lock U500 и

img
Новинки / Производитель / Бренд / Смарт.ТВ / СТАТЬИ / Умный Дом и решения
Чек-лист дизайн-проекта для проектировщика электрики - «Умный Дом и решения»

Расскажу о том, что мне важно увидеть в дизайн-проекте, чтобы у меня не было вопросов к дизайнеру. Эти моменты касаются элементов электрики:

  • Jones
  • 27-05-2026, 16:30
  • 29
img
Новинки / Производитель / Умные Решения
Govee представила фоновую подсветку для телевизоров TV Backlight 3 с поддержкой Matter - «Умный Дом и решения»

Компания Govee анонсировала систему фоновой подсветки для телевизоров - TV Backlight 3. Устройство поддерживает Matter и синхронизирует подсветку с

img
Новинки / Производитель / Смарт.ТВ / Бренд / Строительство
Уличная точка доступа Wi-Fi Netcraze (Keenetic) Stellar 6 - «Умный Дом и решения»

Наконец произошло то, чего я достаточно долго ждал — в ассортименте бренда Netcraze (ранее — Keenetic) появилась уличная Wi-Fi точка доступа.

img
Смарт.ТВ / Производитель / Умные Решения
Компания Govee выпустила лампочку G25 Smart Edison Light Bulb с поддержкой Matter - «Умный Дом и решения»

Компания Govee представила умную лампу E26 Smart Edison Light Bulb G25. Устройство поддерживает Matter over Wi-Fi и совместимо с распространенными

img
Производитель / Новинки / Умные Решения
SwitchBot выпустил замки Lock Vision с поддержкой Matter и распознаванием лица - «Умный Дом и решения»

Компания SwitchBot представила серию умных замков Lock Vision для Северной Америки. В линейку вошли модели Lock Vision и Lock Vision

Top.Mail.Ru