Сбер GigaAM (Giga Acoustic Model)

Продукт
Разработчики: SberDevices (СалютДевайсы, ранее СберДевайсы)
Дата премьеры системы: 2024/04/08
Дата последнего релиза: 2024/12/13
Технологии: Речевые технологии

Содержание

Основные статьи:

2024

*Поддержка дообучения и инференса с Flash Attention

13 декабря 2024 года Сбербанк сообщил о том, что семейство open source моделей машинного обучения для распознавания речи и эмоций GigaAM (Giga Acoustic Model) получило большое обновление.

Как рассказал технический директор GigaChat Федор Минькин, в обновленной версии акустических моделей GigaAM улучшены подготовка данных и технология предобучения базовой модели. За счёт этого удалось значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов. Для самой сильной модели семейства GigaAM-RNNT этот показатель улучшен на 25% относительно предыдущей версии и на 56% превосходит OpenAI-Whisper-large-v3.Профессиональные дисплеи для медучреждений: как цифровые технологии улучшают качество обслуживания пациентов и работу медперсонала 2.2 т

Кроме того, за счёт перехода на другое позиционное кодирование, обновлённая линейка моделей GigaAM поддерживает дообучение и инференс с Flash Attention, что дает существенное ускорение на современных видеокартах, отметили в Сбере. Для повышения доступности использования моделей команда упростила код, снизила число зависимостей и подготовила конвертацию в формат ONNX (открытая библиотека программного обеспечения). Обновленные модели публикуются с лицензией MIT, что допускает их коммерческое использование.

Представление GigaAM

Компания SberDevices 8 апреля 2024 года представила GigaAM — семейство open source моделей машинного обучения для распознавания речи и эмоций.

Эти акустические модели можно использовать для подготовки дипломных работ и научных статей.

GigaAM — Audio Foundation Model, предобученная на разнообразной русской речи. Она отлично подходит для адаптации под различные задачи работы со звуком, включая распознавание речи и эмоций, определение диктора и другие.

GigaAM-CTC — открытая модель для распознавания русскоязычных запросов. Как показала оценка качества на 7 срезах данных (от запросов в умные колонки до записей из телефонного канала), модель допускает в коротких запросах на 20–35% меньше ошибок в словах по сравнению с такими популярными решениями, как NeMo-Conformer-RNNT и Whisper-Large-v3.

GigaAM-Emo — акустическая модель для определения эмоций. Она продемонстрировала лучший результат на датасете Dusha среди известных моделей. Все модели размещены в открытом доступе с некоммерческой лицензией и могут быть использованы для подготовки дипломных работ и научных статей.

Улучшенные версии этих моделей бизнесу доступны на нашей платформе для синтеза и распознавания речи SaluteSpeech API, а физические лица также могут ими воспользоваться в приложении SaluteSpeech App.



Подрядчики-лидеры по количеству проектов

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (19)
  Naumen (Наумен консалтинг) (15)
  Другие (214)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Naumen (Наумен консалтинг) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Другие (38)

  Voice Systems Robotics (VSR, VS Robotics) (2)
  Сенсор-Тех Лаборатория (1)
  Napoleon IT (Наполеон Айти) (1)
  SteadyControl (1)
  Группа компаний ЦРТ (Центр речевых технологий) (1)
  Другие (3)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2022 год
2023 год
2024 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (18, 48)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (4, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl HoReCa (1, 24)
  SteadyControl (1, 24)
  Другие (407, 235)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (18, 30)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Сбербанк (3, 5)
  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Unlimited Production (Анлимитед Продакшен, eXpress) (1, 5)
  Другие (28, 45)

  Voice Systems Robotics (VSR, VS Robotics) (1, 2)
  Сбербанк (1, 1)
  SteadyControl (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  СалютДевайсы (ранее SberDevices) (1, 1)
  Другие (5, 5)

Распределение базовых систем по количеству проектов, включая партнерские решения (проекты, партнерские проекты)

За всю историю
2022 год
2023 год
2024 год
Текущий год

  МТС Exolve Голосовой робот - 29 (5, 24)
  SteadyControl Система контроля и управления персоналом - 24 (24, 0)
  BSS Digital2Speech - 21 (21, 0)
  Voice2Med Система распознавания речи в медицине - 14 (14, 0)
  EXpress Защищенный корпоративный мессенджер - 13 (13, 0)
  Другие 170

  МТС Exolve Голосовой робот - 12 (1, 11)
  BSS Digital2Speech - 6 (6, 0)
  Naumen Erudite - 3 (3, 0)
  VS Robotics: VS Робот-оператор - 3 (3, 0)
  SteadyControl Система контроля и управления персоналом - 3 (3, 0)
  Другие -1

  МТС Exolve Голосовой робот - 9 (0, 9)
  SteadyControl Система контроля и управления персоналом - 7 (7, 0)
  BSS Digital2Speech - 6 (6, 0)
  EXpress Защищенный корпоративный мессенджер - 6 (6, 0)
  SmartLogger II - 4 (4, 0)
  Другие 12

  SteadyControl Система контроля и управления персоналом - 5 (5, 0)
  EXpress Защищенный корпоративный мессенджер - 5 (5, 0)
  BSS Digital2Speech - 4 (4, 0)
  Napoleon IT отзывы - 3 (3, 0)
  Robovoice Пользовательская no-code платформа для разработки ИИ-ботов - 3 (3, 0)
  Другие 34

  VS Robotics: VS Робот-оператор - 2 (2, 0)
  ЦРТ: Voice2X Платформа голосового ввода для крупного бизнеса - 1 (1, 0)
  Сбер: GigaChat - 1 (1, 0)
  Napoleon IT отзывы - 1 (1, 0)
  SteadyControl Система контроля и управления персоналом - 1 (1, 0)
  Другие 2