English version

Федеральный стандарт MELP на 2.4 кбит/с

MELP кодер основан на традиционной параметрической модели кодирования с линейным предсказанием, но, кроме того, содержит пять дополнительных особенностей:

  • смешанное возбуждение,

  • использование апериодических импульсов,

  • адаптивное улучшение спектрального оценивания,

  • "размывание" импульсов возбуждения,

  • моделирование амплитуд коэффициентов Фурье

Реализация смешанного возбуждения осуществляется с помощью многополосной смешивающей модели. Эта модель может симулировать частотно-зависимую интенсивность звука, используя адаптивную фильтрацию, выполненную в соответствии с установленным набором фильтров. Главной целью смешанного возбуждени является устранение призвуков, которые имеют место в LPC-вокодерах, особенно при широкополосном акустическом шуме.

Когда входная речь огласована, MELP-кодер осуществляет синтез, используя периодические и апериодические импульсы. Апериодические импульсы применяются наиболее часто в переходных областях, между озвученными и неозвученными сегментами речевого сигнала. Эта особенность позволяет декодеру воспроизводить одиночные импульсы, образованные в голосовой щели без внесения тональных призвуков.

Адаптивный фильтр, помогающий улучшить оценку спектра, основан на использовании полюсов фильтра линейного предсказания. Он расширяет формантную структуру синтетической речи и улучшает соответствие между синтетической и натуральной формой волны. Это также придает синтетической речи более натуральное звучание.

"Размывание" импульсов осуществляется с помощью фиксированного фильтра. Этот фильтр распределяет энергию возбуждения в пределах периода основного тона, снижая этим шероховатости в синтезированной речи.

Первые десять амплитуд Фурье определяются из пиковых значений преобразования Фурье сигнала-остатка. Информация, содержащаяс в этих коэффициентах, улучшает точность производимой речевой модели на наиболее важных низких частотах. Они увеличивают качество синтетической речи, особенно мужской на фоне шумов. Используется 512-точечное быстрое преобразование Фурье (FFT) окна длиной 200 отсчетов, центрированного относительно конца кадра.

Анализ линейного предсказания 10-го порядка выполняетс на входном речевом сигнале с использованием окна Хемминга на 200 отсчетов (25 мс), центрированного относительно последнего отсчета текущего кадра. Процедура автокорреляционного анализа производится с использованием метода Левинсона-Дарбина. Коэффициенты линейного предсказания ai, i=1,2,…,10 преобразовываются в спектральные частоты (LSF). Затем LSF располагаютс в порядке возрастания с минимальным промежутком в 50 Гц. Результирующий LSF вектор f затем квантуется векторным квантователем (MSVQ).

В синтезаторе MELP-параметры интерполируются синхронно периоду основного тона. К интерполируемым параметрам относятся следующие: усиление (в дБ), линейные спектральные частоты, период основного тона, джиттер, амплитуда Фурье, импульсы и коэффициенты шума для смешанного возбуждения, коэффициент спектрального наклона для адаптивного фильтра спектрального расширения.

Список параметров, передаваемых от кодера к декодеру, представлен в таблице:

Передаваемые параметры

Параметр

Озвученный кадр

Неозвученный кадр

Линейные спектральные частоты

25

25

Амплитуды преобразования Фурье

8

-

Коэффициенты усиления (2 за кадр)

8

8

Период основного тона, общая озвученность кадра

7

7

Озвученность по полосам

4

-

Флаг непериодичности

1

-

Защита от ошибок

-

13

Синхробит

1

1

Всего за кадр 22.5 мс

54

54

Более подробное описание алгоритма речевого кодировани MELP на скорости 2400 бит/с можно найти в:
Specifications for the Analog to Digital Conversion of Voice by 2,400 Bit/Second Mixed Excitation Linear Prediction. - May 28, 1998 - Draft.

[наверх] [на главную]


Многоканальная реализаци дл ЦПОС семейства TMS320C54x

Алгоритм реализован для ЦПОС семейства TMS320C54x фирмы Texas Instruments.

Реализация удовлетворяет следующим требованиям:

  • функционирует в режиме реального времени;
  • совместима со всеми ЦПОС в рамках семейства TMS320C54x (не используютс специфические особенности старших моделей, таких как TMS320C548, TMS320C549 и пр.);
  • полностью совместима с требованиями стандарта - достигнуто побитовое соответствие при обработке базы речевых сигналов;
  • возможна обработка нескольких дуплексных каналов на одном процессоре

Ресурсоемкость реализации для TMS320C54x (версия 1.1)

Загрузка процессора

 

Кодер MELP

Декодер MELP

Вычислительный ресурс (пиковая загрузка на один канал), млн.оп./с.

21.7

6.7

28.4

Память

программа, К слов

7.58

таблицы, К слов

8.05

данные, К слов

2.2 + 2.66 * N

Всего, К слов

17.83 + 2.66 * N

где N - число одновременно реализуемых каналов.

Таким образом, на одном процессоре TMS320C549 с 32 килословами внутренней памяти и мощностью 100MIPS можно реализовать независимую обработку трех речевых каналов

[наверх] [на главную]

Звук

По следующим звуковым файлам вы сможете оценить качество алгоритма MELP:

Исходная речь

fspeech.wav

Речь, упакованная кодером MELP и восстановленная декодером MELP при нулевых потерях

fspeech_melp.wav

[наверх] [на главную]

Документация

Можно получить подробную документацию по представленным реализациям алгоритма MELP, описание API реализации, подробные инструкции по встраиванию алгоритма в систему обработки речевых сигналов:
MELP для TMS320C54x (формат Word)

[наверх] [на главную]


Навигация

Описание рекомендации

Реализация для TMS320C54x

Звук

Документация


По вопросам приобретения библиотек, исходных текстов программ или реализаций готовых устройств на основе малогабаритных DSP модулей обращайтесь по e-mail:

e-mail в графическом файле

Подробная контактная информация представлена в разделе "О Центре"

Copyright © 1999-2009, Центр ЦОС СПб ГУТ