Технология голосового управления стала важной частью современного взаимодействия человека и машины. Она позволяет пользователям управлять электронными устройствами и системами с помощью простых голосовых команд вместо традиционных методов ввода, таких как кнопки, переключатели или сенсорные экраны. Этот тип взаимодействия делает устройства проще в использовании, доступнее и удобнее во многих приложениях, таких как умные дома, системы автоматизации и вспомогательные технологии. Многие существующие системы распознавания голоса зависят от облачной обработки. В этих системах голос пользователя записывается и отправляется на удаленный сервер через Интернет, где он обрабатывается и преобразуется в команды. Хотя этот метод может обеспечить мощные возможности распознавания голоса, он также вносит ряд ограничений. Эти системы требуют постоянного подключения к Интернету, и если сетевое соединение медленное или недоступное, система может работать некорректно. Облачная обработка также может вызывать задержки (латентность) во времени отклика и может вызывать опасения по поводу конфиденциальности, поскольку голосовые данные передаются и обрабатываются на внешних серверах.

Для преодоления этих проблем были разработаны модули распознавания голоса в автономном режиме. Эти модули предназначены для обработки и распознавания голосовых команд непосредственно на устройстве без необходимости подключения к интернету. Это делает систему быстрее, надежнее и безопаснее, поскольку голосовые данные остаются в локальной сети устройства. Распознавание голоса в автономном режиме особенно полезно во встроенных системах, проектах автоматизации и средах, где доступ к интернету может быть не всегда доступен.
В этом проекте реализована система голосового управления в автономном режиме с использованием модуля распознавания голоса SU-03T. VC-02 — это официальный модуль от Ai-Thinker, предлагающий хорошо разработанную прошивку, надлежащую документацию и поддержку SDK для настройки и обучения голосовых команд, что делает его подходящим для продвинутой разработки. В отличие от него, SU-03T — это более универсальный модуль, выпускаемый различными производителями, и он предпочтительнее из-за своей низкой стоимости, что делает его экономичным выбором для простых приложений голосового управления. В этой системе, когда пользователь произносит команду, SU-03T обрабатывает голосовой ввод и сравнивает его со своим сохраненным набором команд. Если обнаружено совпадение, модуль запускает соответствующее действие. В этом проекте распознанные голосовые команды используются для управления светодиодами, включая и выключая их.
Данное руководство основано на практическом тестировании модуля распознавания голоса SU-03T в автономном режиме в лаборатории Circuit Digest. SU-03T используется здесь в качестве практичной и недорогой альтернативы VC-02 для проектов с автономным голосовым управлением. Модули распознавания голоса в автономном режиме решают эту проблему, обрабатывая и распознавая голосовые команды полностью на устройстве, без необходимости подключения к интернету. В этом проекте мы реализуем систему голосового управления в автономном режиме с использованием модуля распознавания голоса SU-03T, одной из самых дешевых альтернатив VC-02/VC020 на рынке сегодня.
Также на нашем сайте вы можете ознакомиться и с другоми проектами автономного распознавания голоса:
- автономное распознавание голоса на ESP32 с использованием Edge Impulse;
- распознавание речи на Arduino Nano 33 BLE Sense.
SU-03T против VC-02 – краткое сравнение
Если вы рассматриваете альтернативный автономный голосовой модуль для VC-02 или VC020, в таблице ниже приведены основные различия между ними и модулем SU-03T, которые помогут вам выбрать подходящую микросхему для вашего проекта.
| Особенность | SU-03T | VC-02 (Ai-Thinker) |
| Требуется подключение к интернету? | Нет | Нет |
| Цена (приблизительно) | Очень низкий (общий) | Низкий (брендовый) |
| SDK / инструмент для прошивки | Портал SDK Ai-Thinker | Портал SDK Ai-Thinker |
| Поддержка английских команд | Да (через Ai-Thinker SDK) | Да |
| Управление выходом GPIO | Да | Да |
| Поддержка ШИМ | Да | Да |
| Команды, не требующие пробуждения | До 10 | До 10 |
| Качество документации | Ограниченный | Хороший |
| Наиболее подходит для | Бюджетные проекты, прототипы | Производство, передовые разработки |
Как видите, возможности данных модулей примерно сопоставимы.
Необходимые компоненты
Ниже перечислены компоненты, необходимые для сборки полной системы. Все необходимые детали широко доступны у дистрибьюторов электроники, таких как DigiKey, Robu.in и AliExpress.
| № п/п | Компонент | Количество | Назначение |
| 1 | SU-03T | 1 | основной модуль, необходимый для работы проекта |
| 2 | Микрофон | 1 | используется для приема команд от пользователя |
| 3 | Громкоговоритель | 1 | используется для ответа с использованием заранее определенных слов |
| 4 | USB-последовательный преобразователь | 1 | используется для загрузки кода в модуль |
| 5 | Светодиод (зеленый и красный) | 2 (по 1 шт.) | для наблюдения за результатом |
| 6 | Резистор 100 Ом | 1 | для ограничения тока |
| 7 | Макетная плата | 1 | используется для временного размещения компонентов |
| 8 | Соединительные провода | необходимое | используются для соединения всех компонентов |
Как видите, компонентов немного.
Схема проекта
На представленной ниже схеме проекта показаны соединение микрофона и динамика с голосовым модулем, а также светодиоды, подключенные к его выводам GPIO через резисторы. Она также включает интерфейс USB-to-TTL для загрузки прошивки и связи. Схема показывает все аппаратные соединения для этого проекта автономного распознавания голоса.

Поключения в данной схеме описаны в следующей таблице.
| Контакт SU-03T | Подключен к | Примечания |
| VCC (3.3 V) | Выход USB-TTL 3,3 В | Не превышайте напряжение 3,3 В; модуль не рассчитан на напряжение 5 В |
| GND | Общая земля (USB-TTL) | общий провод/земля для всех компонентов |
| TX | USB-to-TTL RX | Связь по UART/прошивка |
| RX | USB-to-TTL TX | Прошивка для связи по UART |
| MIC+ / MIC− | Электретный микрофон | Дифференциальный аналоговый аудиовход |
| SPK+ / SPK− | 8-омный динамик | Встроенный выход усилителя |
| GPIO1 | Зеленый светодиод → 100 Ом → GND | Управляется командой "Включить светодиод" ("Turn on LED") |
| GPIO2 | Красный светодиод → 100 Ом → GND | Управляется командой «Выключить светодиод» "Turn off LED" |
Как видите, схема подключений в проекте достаточно проста.
Аппаратное подключение модуля распознавания голоса в автономном режиме
Модуль автономного распознавания голоса SU-03T подключен к преобразователю USB-to-Serial для питания и программирования. К модулю подключены микрофон и динамик для обработки голосового ввода и вывода звука. Контакты GPIO модуля подключены к светодиодам через токоограничивающие резисторы для выполнения выходных действий.

Как работает модуль автономного распознавания голоса SU-03T
Работа данного проекта основана на модуле автономного распознавания голоса SU-03T, предназначенном для распознавания голосовых команд без подключения к интернету. Модуль подключается к микрофону, динамику и внутреннему процессору, который может анализировать голосовые входные данные и сопоставлять их с предопределенными командами, хранящимися в его памяти. Перед использованием модуля необходимо настроить и загрузить в него необходимые голосовые команды.
После настройки и загрузки команд в модуль, SU-03T постоянно прослушивает голосовой ввод через микрофон. Когда пользователь произносит команду, модуль захватывает аудиосигнал и преобразует его в цифровые данные. Затем внутренний механизм распознавания голоса обрабатывает этот сигнал и сравнивает его с сохраненными шаблонами голосовых команд. Если произнесенная команда совпадает с одной из предопределенных команд, модуль идентифицирует ее и немедленно запускает соответствующее действие. Затем модуль управляет выходными контактами GPIO, подключенными к внешним компонентам, таким как светодиоды. На самом деле, существует веб-сайт https://smartpi.cn/#/ , где можно прошить SU-03T. Однако у него есть ограничение: он принимает только правильные китайские слова, а английские слова часто игнорируются. Поэтому мы используем алгоритм прошивки данного модуля и веб-сайт, указанные ниже, для прошивки нашего модуля. Если у вас есть время, вы можете изучить эту страницу для дальнейшего использования.
Настройка и прошивка модуля распознавания голоса SU-03T в автономном режиме
Этот же рабочий процесс совместим с VC-02 и служит рекомендуемым процессом настройки SDK для распознавания голоса в автономном режиме для всех модулей, совместимых с Ai-Thinker.
Шаг 1: Зарегистрируйтесь на портале Ai-Thinker Voice SDK.
http://voice.ai-thinker.com/#/SdkVersionList
Перейдите по ссылке на сайт (переведите на английский) и войдите на сайт, если у вас нет учетной записи. После этого зарегистрируйте учетную запись. В верхнем левом углу вы увидите кнопку “Create the product” («Создать продукт»), нажмите на нее.

Шаг 2: Создание профиля продукта для работы исключительно в автономном режиме.
Для этого нажмите на other products («Другие продукты»), выберите сцену “Pure Offline” («Строго в автономном режиме»), модуль «VC-02», затем задайте любое имя для продукта и язык «Английский», после чего нажмите «Сохранить».

Шаг 3: Проверка конфигурации контактов и SDK.
После выполнения предыдущего шага вы перейдете в раздел голосового SDK, где необходимо настроить параметры контактов, а также задать команды. В разделе конфигурации контактов ничего менять не нужно.

Шаг 4: Настройка кодового слова.
В разделе custom wake word («Настраиваемое кодовое слово») вы можете установить любое предпочитаемое кодовое слово, например «Hai» или «hello», а также указать ответ на пробуждение, например «hello buddy».

Шаг 5: Добавление команд распознавания голоса в автономном режиме.
Задайте слова поведения, например, “turnonled” («включить светодиод») или “turnoffled” («выключить светодиод»), а в качестве командных слов укажите желаемые слова, например, “Turn on led” («включить светодиод») или “lights on” («включить свет»), а также соответствующее предложение ответа, например, “turning on the led” («включить светодиод») или “turning lights off” («выключить свет»). Рядом с вкладкой basic information («Основная информация») вы увидите вкладку control details («Подробности управления»). Щелкните по ней и настройте параметры в соответствии с вашими потребностями, например, низкий или высокий уровень. Здесь вы также можете установить частоту импульсов.

Шаг 6: Настройка команд для автоматического пробуждения.
После настройки всех параметров прокрутите вниз, и вы увидите раздел команд для автоматического пробуждения, где можно задать только 10 команд. После этого сначала нужно указать кодовое слово для пробуждения, а затем использовать команду, чтобы можно было выбрать, какие именно команды будут командами для автоматического пробуждения.

Шаг 7: Выберите актера озвучки и настройки звука.
После этого вы можете выбрать предпочитаемого актера озвучки в разделе настроек актера озвучки, а также установить яркость голоса, скорость и громкость.

Шаг 8: Добавление объявления о запуске и команд завершения.
В разделе other configurations («Другие настройки») вы можете добавить объявление о запуске, ответ на команду завершения, команду добровольного выхода и ответ на команду завершения в соответствии с вашими потребностями.

Шаг 9: Генерация прошивки.
После настройки всех параметров нажмите кнопку generate a new version («Сгенерировать новую версию») и укажите для неё описание. После этого вы перейдете в раздел голосового SDK, где увидите свой продукт. Нажмите вкладку generate SDK («Сгенерировать SDK»). Генерация SDK или прошивки займет максимум 30-35 минут. Теперь загрузите сгенерированную прошивку и распакуйте файл.

Шаг 10: Загрузите утилиту прошивки UniOneUpdateTool.
Загрузите файлы Unicommon.dll, UniCommunicateSwitch.dll и UniOneUpdateTool.exe из Hummingbird-M-Update-Tool V1.0.
После установки запустите UniOneUpdateTool.exe и, согласно схеме подключения, соедините все компоненты. Затем подключите USB-TTL кабель к USB-порту ноутбука. Теперь в окне UniOneUpdateTool появится COM-порт.

Шаг 11: Прошивка модуля SU-03T.

В окне UniOneUpdateTool вы увидите опцию, похожую на 选择 (Choose - «Выбрать»). Нажмите на неё и перейдите в папку с извлеченной прошивкой, выберите файл uni_app_release_update.bin, затем вы увидите 烧录(Programming/Burning - «Программирование/Запись»). Нажмите на эту опцию и подождите, пока все порты не заполнятся желтым цветом. Когда всё завершится, снимите перемычку с контакта питания преобразователя USB в TTL, а затем снова вставьте её. Теперь вы увидите, как прошивка прошивается в модуль.
Демонстрация работы модуля распознавания голоса в автономном режиме
Применение модулей распознавания голоса в автономном режиме
1. Автоматизация умного дома.
Модули распознавания голоса в автономном режиме могут использоваться для управления бытовой техникой, такой как освещение, вентиляторы и другие электронные устройства, с помощью голосовых команд. Это позволяет пользователям легко управлять устройствами без использования выключателей или мобильных приложений.
2. Вспомогательные технологии.
Системы голосового управления могут помочь пожилым людям и людям с ограниченными физическими возможностями более удобно управлять электронными устройствами. Простые голосовые команды позволяют им включать и выключать свет без необходимости физического взаимодействия.
3. Промышленная автоматизация
В промышленных условиях голосовое управление может использоваться для управления определенными машинами или индикаторами, где ручное управление может быть затруднено. Автономные голосовые системы повышают надежность, поскольку не зависят от подключения к интернету.
4. Автомобильные системы управления.
Автономное распознавание голоса может быть интегрировано в транспортные средства для управления такими функциями, как освещение, музыкальные системы или навигационные функции. Это позволяет водителям управлять системами без помощи рук, повышая безопасность и удобство. Низкая стоимость.
5. Образовательные и встроенные системные проекты.
Автономные голосовые модули широко используются в образовательных проектах и исследованиях для демонстрации голосового взаимодействия человека и машины.
Устранение неполадок в автономном модуле распознавания голоса SU-03T
Проблема 1: Голосовая команда не распознается.
Решение: Это может произойти, если произнесенная команда не совсем точно соответствует предопределенной команде, хранящейся в модуле. Убедитесь, что команда произнесена четко и с правильным произношением. Также проверьте, загружен ли в модуль правильный набор данных голосовых команд с помощью официального инструмента настройки.
Проблема 2: Светодиод не включается и не выключается.
Решение: Проверьте проводку между модулем SU-03T и светодиодом. Убедитесь, что светодиод подключен к правильному выводу GPIO с токоограничивающим резистором. Также проверьте, соответствует ли конфигурация выходного вывода в программном обеспечении фактическому подключению оборудования.
Проблема 3: Модуль не реагирует на голосовой ввод.
Решение: Это может произойти, если микрофон неправильно улавливает звук или если модуль неправильно питается. Убедитесь, что модуль получает необходимое питание и что область микрофона не заблокирована. Разговор ближе к модулю также может улучшить обнаружение звука.
Проблема 4: ШИМ-управление работает некорректно.
Решение: Если яркость светодиода или скорость вращения двигателя не изменяются, убедитесь, что вывод ШИМ правильно настроен в программном обеспечении. Проверьте, правильно ли подключен выходной вывод ШИМ к устройству, и подтвердите правильность настроек коэффициента заполнения.
Проблема 5: Модуль не обнаружен при настройке через компьютер.
Решение: Убедитесь, что USB-to-Serial преобразователь или программный интерфейс правильно подключены. Установите необходимые драйверы и проверьте, что в программном обеспечении для настройки выбран правильный COM-порт. Перезапуск программного обеспечения или повторное подключение модуля также могут решить проблему.
Возможные усовершенствования проекта
-
Управление несколькими устройствами.
Систему можно расширить для управления несколькими устройствами, такими как вентиляторы, двигатели и бытовая техника, используя различные голосовые команды. -
Коммуникации/прошивка. Интеллектуальная интеграция с домашней системой.
Может быть интегрирована с полноценной системой «умного дома» для управления освещением, системами безопасности и другими устройствами автоматизации. -
Интерфейс мобильного приложения.
В мобильное приложение можно добавить функции мониторинга и управления устройствами, а также голосовые команды. -
Управление двигателями и электроприборами.
Систему можно усовершенствовать для управления двигателями, насосами и другими электроприборами с помощью голосовых команд. -
Расширение возможностей пользовательских голосовых команд.
Можно добавить больше голосовых команд для расширения функциональности и управления большим количеством операций в системе.
Часто задаваемые вопросы
⇥ Требуется ли для работы модуля подключение к интернету?
Нет, модуль работает полностью в автономном режиме. Все голосовые команды обрабатываются внутри модуля, что делает систему быстрее и надежнее.
⇥ Как добавить голосовые команды в модуль?
Голосовые команды можно настроить и загрузить с помощью официальных инструментов настройки и SDK, доступных на платформе, предоставляемой Ai-Thinker.
⇥ Каковы основные преимущества использования модуля распознавания голоса в автономном режиме?
Распознавание голоса в автономном режиме обеспечивает более быстрое время отклика, повышенную конфиденциальность и лучшую надежность, поскольку не зависит от подключения к интернету.
⇥ Может ли модуль управлять устройствами, помимо светодиодов?
Да, модуль может управлять различными устройствами, такими как двигатели, реле, вентиляторы и другие приборы, через свои контакты GPIO, в зависимости от схемы.
⇥ Можно ли изменить или обновить голосовые команды позже?
Да, голосовые команды можно изменить или обновить, перенастроив параметры в платформе SDK и загрузив новую прошивку в модуль.
⇥ Сколько времени занимает генерация новой прошивки для SU-03T на портале Ai-Thinker SDK?
После нажатия кнопки «Сгенерировать новую версию» прошивка будет скомпилирована на облачном сервере Ai-Thinker примерно за 30-35 минут. После этого вы сможете загрузить ZIP-файл (содержащий скомпилированную прошивку) из списка версий SDK. После загрузки ZIP-файла распакуйте его и найдите файл uni_app_release_update.bin для процесса прошивки.
⇥ Какой инструмент рекомендуется для прошивки голосового модуля SU-03T?
Рекомендуемый инструмент для прошивки SU-03T — это UniOneUpdateTool (входит в пакет Hummingbird M Update Tool V1.0). Подключите SU-03T к компьютеру через USB-TTL преобразователь, выберите файл прошивки .bin в программе, нажмите «Записать», дождитесь, пока все порты загорятся желтым цветом, а затем перезагрузите SU-03T после завершения процесса.
Заключение
В этом проекте демонстрируется реализация простой автономной системы голосового управления с использованием модуля распознавания голоса SU-03T. Система показывает, как голосовые команды могут использоваться для управления электронными устройствами без подключения к интернету. Она подчеркивает преимущества автономного распознавания голоса, такие как более быстрая реакция, повышенная надежность и лучшая конфиденциальность. Настраивая голосовые команды через SDK Ai-Thinker для автономного распознавания голоса и прошивая микропрограмму с помощью UniOneUpdateTool, вы получаете надежную, конфиденциальную систему голосового управления с низкой задержкой, не требующую подключения к интернету. Проект также показывает, как выходы GPIO и PWM могут использоваться для управления такими устройствами, как светодиоды, с помощью голосовых команд. В целом, система представляет собой практический пример голосового взаимодействия человека и машины во встроенных системах. Подобные системы могут быть в дальнейшем расширены для автоматизации и интеллектуального управления в будущем.
9 просмотров




