RHVoice Система синтеза речи

Продукт
Дата последнего релиза: 2022/04/11
Технологии: Речевые технологии

Основные статьи:

RHVoice - это бесплатный многоязычный синтезатор речи с открытым исходным кодом.Масштабирование и наведение порядка в сервисе обслуживания медоборудования — опыт компании Медсервиспро

2022: RHVoice 1.8.0

11 апреля 2022 года стало известно, что состоялся выпуск открытой системы синтеза речи RHVoice 1.8.0, изначально развивавшейся для обеспечения поддержки русского языка, но затем адаптированной и для других языков, включая английский, португальский, украинский, киргизский, татарский и грузинский. Код написан на C++ и распространяется под лицензией LGPL 2.1. Поддерживается работа в GNU/Linux, Windows и Android. Программа совместима с типовыми TTS-интерфейсами (text-to-speech) для преобразования текста в речь: SAPI5 (Windows), Speech Dispatcher (GNU/Linux) и Android Text-To-Speech API, но также может использоваться в экранном ридере NVDA. Создателем и основным разработчиком RHVoice является Ольга Яковлева, которая развивает проект несмотря на полную слепоту.

Иллюстрация: selectel.ru

В версии 1.8.0 для платформы Android предложена оптимизированная система управления голосовыми и языковыми данными, позволяющая загружать обновления голосовых данных без обновления мобильного приложения. Проверка появления обновлений данных для добавленных голосов и языков производится автоматически. Кроме того, в представленном выпуске реализована поддержка польского языка и добавлен голос для македонского языка. Обеспечена совместимость со свежими альфа- и бета-выпусками экранного ридера NVDA. Устранены проблемы со сборкой на платформе Linux, возникавшие при отсутствии Speech Dispatcher.

В RHVoice применяются наработки проекта HTS (HMM/DNN-based Speech Synthesis System) и параметрический метод синтеза со статистическими моделями (Statistical Parametric Synthesis на базе HMM - Hidden Markov Model). Плюсом статистической модели являются низкие накладные расходы и нетребовательность к мощности CPU. Все операции выполняются локально на системе пользователя. Поддерживается три уровня качества речи (чем ниже качество - тем выше производительность и меньше время реакции).

Минусом статистической модели является относительно низкое качество произношения, которое не достигает уровня синтезаторов, генерирующих речь на основе комбинации фрагментов естественной речи, но тем не менее результат вполне разборчив и напоминает трансляцию записи с громкоговорителя. Для сравнения, проект Silero, предоставляющий открытый движок для синтеза речи на основе технологий машинного обучения и набор моделей для русского языка, по качеству превосходит RHVoice.

Для русского языка доступно 14 вариантов голосов, для английского - 6. Голоса формируются на основе записей естественной речи. В настройках можно изменять скорость, высоту и громкость. Для изменения темпа может применяться библиотека Sonic. Возможно автоматическое определение и переключение языка на основе анализа входного текста (например, для слов и цитат на другом языке может использоваться родная для данного языка модель синтеза). Поддерживаются голосовые профили, определяющие сочетания голосов для разных языков.[1]

Примечания



Подрядчики-лидеры по количеству проектов

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (19)
  Naumen (Наумен консалтинг) (15)
  Другие (214)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Naumen (Наумен консалтинг) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Другие (38)

  Voice Systems Robotics (VSR, VS Robotics) (2)
  Сенсор-Тех Лаборатория (1)
  Napoleon IT (Наполеон Айти) (1)
  SteadyControl (1)
  Группа компаний ЦРТ (Центр речевых технологий) (1)
  Другие (3)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 48)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl HoReCa (1, 24)
  SteadyControl (1, 24)
  Другие (407, 235)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (18, 30)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 5)
  Другие (28, 45)

  Voice Systems Robotics (VSR, VS Robotics) (1, 2)
  Сбербанк (1, 1)
  SteadyControl (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  СалютДевайсы (ранее SberDevices) (1, 1)
  Другие (5, 5)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2022 год
2023 год
2024 год
Текущий год

  МТС Exolve Голосовой робот - 29 (5, 24)
  SteadyControl Система контроля и управления персоналом - 24 (24, 0)
  BSS Digital2Speech - 21 (21, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  EXpress Защищенный корпоративный мессенджер - 13 (13, 0)
  Другие 170

  МТС Exolve Голосовой робот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие -1

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  BSS Digital2Speech - 6 (6, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 12

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  EXpress Защищенный корпоративный мессенджер - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  Napoleon IT отзывы - 3 (3, 0)
  Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
  Другие 34

  VS Robotics: VS Робот-оператор - 2 (2, 0)
  ЦРТ: Voice2X Платформа голосового ввода для крупного бизнеса - 1 (1, 0)
  Сбер: GigaChat - 1 (1, 0)
  Napoleon IT отзывы - 1 (1, 0)
  SteadyControl Система контроля и управления персоналом - 1 (1, 0)
  Другие 2