SU-03T: недорогой автономный модуль распознавания голоса


Технология голосового управления стала важной частью современного взаимодействия человека и машины. Она позволяет пользователям управлять электронными устройствами и системами с помощью простых голосовых команд вместо традиционных методов ввода, таких как кнопки, переключатели или сенсорные экраны. Этот тип взаимодействия делает устройства проще в использовании, доступнее и удобнее во многих приложениях, таких как умные дома, системы автоматизации и вспомогательные технологии. Многие существующие системы распознавания голоса зависят от облачной обработки. В этих системах голос пользователя записывается и отправляется на удаленный сервер через Интернет, где он обрабатывается и преобразуется в команды. Хотя этот метод может обеспечить мощные возможности распознавания голоса, он также вносит ряд ограничений. Эти системы требуют постоянного подключения к Интернету, и если сетевое соединение медленное или недоступное, система может работать некорректно. Облачная обработка также может вызывать задержки (латентность) во времени отклика и может вызывать опасения по поводу конфиденциальности, поскольку голосовые данные передаются и обрабатываются на внешних серверах.

Недорогие автономные модули для голоса: альтернатива VC-02

Для преодоления этих проблем были разработаны модули распознавания голоса в автономном режиме. Эти модули предназначены для обработки и распознавания голосовых команд непосредственно на устройстве без необходимости подключения к интернету. Это делает систему быстрее, надежнее и безопаснее, поскольку голосовые данные остаются в локальной сети устройства. Распознавание голоса в автономном режиме особенно полезно во встроенных системах, проектах автоматизации и средах, где доступ к интернету может быть не всегда доступен.

В этом проекте реализована система голосового управления в автономном режиме с использованием модуля распознавания голоса SU-03T. VC-02 — это официальный модуль от Ai-Thinker, предлагающий хорошо разработанную прошивку, надлежащую документацию и поддержку SDK для настройки и обучения голосовых команд, что делает его подходящим для продвинутой разработки. В отличие от него, SU-03T — это более универсальный модуль, выпускаемый различными производителями, и он предпочтительнее из-за своей низкой стоимости, что делает его экономичным выбором для простых приложений голосового управления. В этой системе, когда пользователь произносит команду, SU-03T обрабатывает голосовой ввод и сравнивает его со своим сохраненным набором команд. Если обнаружено совпадение, модуль запускает соответствующее действие. В этом проекте распознанные голосовые команды используются для управления светодиодами, включая и выключая их.

Данное руководство основано на практическом тестировании модуля распознавания голоса SU-03T в автономном режиме в лаборатории Circuit Digest. SU-03T используется здесь в качестве практичной и недорогой альтернативы VC-02 для проектов с автономным голосовым управлением. Модули распознавания голоса в автономном режиме решают эту проблему, обрабатывая и распознавая голосовые команды полностью на устройстве, без необходимости подключения к интернету. В этом проекте мы реализуем систему голосового управления в автономном режиме с использованием модуля распознавания голоса SU-03T, одной из самых дешевых альтернатив VC-02/VC020 на рынке сегодня.

Также на нашем сайте вы можете ознакомиться и с другоми проектами автономного распознавания голоса:

SU-03T против VC-02 – краткое сравнение

Если вы рассматриваете альтернативный автономный голосовой модуль для VC-02 или VC020, в таблице ниже приведены основные различия между ними и модулем SU-03T, которые помогут вам выбрать подходящую микросхему для вашего проекта.

Особенность SU-03T VC-02 (Ai-Thinker)
Требуется подключение к интернету? Нет Нет
Цена (приблизительно) Очень низкий (общий) Низкий (брендовый)
SDK / инструмент для прошивки Портал SDK Ai-Thinker Портал SDK Ai-Thinker
Поддержка английских команд Да (через Ai-Thinker SDK) Да
Управление выходом GPIO Да Да
Поддержка ШИМ Да Да
Команды, не требующие пробуждения До 10 До 10
Качество документации Ограниченный Хороший
Наиболее подходит для Бюджетные проекты, прототипы Производство, передовые разработки

Как видите, возможности данных модулей примерно сопоставимы.

Необходимые компоненты

Ниже перечислены компоненты, необходимые для сборки полной системы. Все необходимые детали широко доступны у дистрибьюторов электроники, таких как DigiKey, Robu.in и AliExpress.

№ п/п Компонент Количество Назначение
1 SU-03T 1 основной модуль, необходимый для работы проекта
2 Микрофон 1 используется для приема команд от пользователя
3 Громкоговоритель 1 используется для ответа с использованием заранее определенных слов
4 USB-последовательный преобразователь 1 используется для загрузки кода в модуль
5 Светодиод (зеленый и красный) 2 (по 1 шт.) для наблюдения за результатом
6 Резистор 100 Ом 1 для ограничения тока
7 Макетная плата 1 используется для временного размещения компонентов
8 Соединительные провода необходимое используются для соединения всех компонентов

Как видите, компонентов немного.

Схема проекта

На представленной ниже схеме проекта показаны соединение микрофона и динамика с голосовым модулем, а также светодиоды, подключенные к его выводам GPIO через резисторы. Она также включает интерфейс USB-to-TTL для загрузки прошивки и связи. Схема показывает все аппаратные соединения для этого проекта автономного распознавания голоса.

Схема проекта автономного распознавания голоса на основе модуля SU-03T

Поключения в данной схеме описаны в следующей таблице.

Контакт SU-03T Подключен к Примечания
VCC (3.3 V) Выход USB-TTL 3,3 В Не превышайте напряжение 3,3 В; модуль не рассчитан на напряжение 5 В
GND Общая земля (USB-TTL) общий провод/земля для всех компонентов
TX USB-to-TTL RX Связь по UART/прошивка
RX USB-to-TTL TX Прошивка для связи по UART
MIC+ / MIC− Электретный микрофон Дифференциальный аналоговый аудиовход
SPK+ / SPK− 8-омный динамик Встроенный выход усилителя
GPIO1 Зеленый светодиод → 100 Ом → GND Управляется командой "Включить светодиод" ("Turn on LED")
GPIO2 Красный светодиод → 100 Ом → GND Управляется командой «Выключить светодиод» "Turn off LED"

Как видите, схема подключений в проекте достаточно проста.

Аппаратное подключение модуля распознавания голоса в автономном режиме

Модуль автономного распознавания голоса SU-03T подключен к преобразователю USB-to-Serial для питания и программирования. К модулю подключены микрофон и динамик для обработки голосового ввода и вывода звука. Контакты GPIO модуля подключены к светодиодам через токоограничивающие резисторы для выполнения выходных действий.

Схема соединений компонентов проекта

Как работает модуль автономного распознавания голоса SU-03T

Работа данного проекта основана на модуле автономного распознавания голоса SU-03T, предназначенном для распознавания голосовых команд без подключения к интернету. Модуль подключается к микрофону, динамику и внутреннему процессору, который может анализировать голосовые входные данные и сопоставлять их с предопределенными командами, хранящимися в его памяти. Перед использованием модуля необходимо настроить и загрузить в него необходимые голосовые команды. 

После настройки и загрузки команд в модуль, SU-03T постоянно прослушивает голосовой ввод через микрофон. Когда пользователь произносит команду, модуль захватывает аудиосигнал и преобразует его в цифровые данные. Затем внутренний механизм распознавания голоса обрабатывает этот сигнал и сравнивает его с сохраненными шаблонами голосовых команд. Если произнесенная команда совпадает с одной из предопределенных команд, модуль идентифицирует ее и немедленно запускает соответствующее действие. Затем модуль управляет выходными контактами GPIO, подключенными к внешним компонентам, таким как светодиоды. На самом деле, существует веб-сайт https://smartpi.cn/#/ , где можно прошить SU-03T. Однако у него есть ограничение: он принимает только правильные китайские слова, а английские слова часто игнорируются. Поэтому мы используем алгоритм прошивки данного модуля и веб-сайт, указанные ниже, для прошивки нашего модуля. Если у вас есть время, вы можете изучить эту страницу для дальнейшего использования.

Настройка и прошивка модуля распознавания голоса SU-03T в автономном режиме

Этот же рабочий процесс совместим с VC-02 и служит рекомендуемым процессом настройки SDK для распознавания голоса в автономном режиме для всех модулей, совместимых с Ai-Thinker.

Шаг 1: Зарегистрируйтесь на портале Ai-Thinker Voice SDK.

http://voice.ai-thinker.com/#/SdkVersionList

Перейдите по ссылке на сайт (переведите на английский) и войдите на сайт, если у вас нет учетной записи. После этого зарегистрируйте учетную запись. В верхнем левом углу вы увидите кнопку “Create the product” («Создать продукт»), нажмите на нее.

Главная страница сервиса Ai-Thinker Voice

Шаг 2: Создание профиля продукта для работы исключительно в автономном режиме.
Для этого нажмите на other products («Другие продукты»), выберите сцену “Pure Offline” («Строго в автономном режиме»), модуль «VC-02», затем задайте любое имя для продукта и язык «Английский», после чего нажмите «Сохранить».

Страница управления продуктами в сервисе Ai-Thinker Voice

Шаг 3: Проверка конфигурации контактов и SDK.
После выполнения предыдущего шага вы перейдете в раздел голосового SDK, где необходимо настроить параметры контактов, а также задать команды. В разделе конфигурации контактов ничего менять не нужно.

Настройка параметров контактов в сервисе Ai-Thinker Voice

Шаг 4: Настройка кодового слова.
В разделе custom wake word («Настраиваемое кодовое слово») вы можете установить любое предпочитаемое кодовое слово, например «Hai» или «hello», а также указать ответ на пробуждение, например «hello buddy».

Настройка кодового слова в сервисе Ai-Thinker Voice

Шаг 5: Добавление команд распознавания голоса в автономном режиме.
Задайте слова поведения, например, “turnonled” («включить светодиод») или “turnoffled” («выключить светодиод»), а в качестве командных слов укажите желаемые слова, например, “Turn on led” («включить светодиод») или “lights on” («включить свет»), а также соответствующее предложение ответа, например, “turning on the led” («включить светодиод») или “turning lights off” («выключить свет»). Рядом с вкладкой basic information («Основная информация») вы увидите вкладку control details («Подробности управления»). Щелкните по ней и настройте параметры в соответствии с вашими потребностями, например, низкий или высокий уровень. Здесь вы также можете установить частоту импульсов.

Добавление команд распознавания голоса в автономном режиме в сервисе Ai-Thinker Voice

Шаг 6: Настройка команд для автоматического пробуждения.
После настройки всех параметров прокрутите вниз, и вы увидите раздел команд для автоматического пробуждения, где можно задать только 10 команд. После этого сначала нужно указать кодовое слово для пробуждения, а затем использовать команду, чтобы можно было выбрать, какие именно команды будут командами для автоматического пробуждения.

Настройка команд для автоматического пробуждения в сервисе Ai-Thinker Voice

Шаг 7: Выберите актера озвучки и настройки звука.
После этого вы можете выбрать предпочитаемого актера озвучки в разделе настроек актера озвучки, а также установить яркость голоса, скорость и громкость.

Выбор актера озвучки и настроек звука в сервисе Ai-Thinker Voice

Шаг 8: Добавление объявления о запуске и команд завершения.
В разделе other configurations («Другие настройки») вы можете добавить объявление о запуске, ответ на команду завершения, команду добровольного выхода и ответ на команду завершения в соответствии с вашими потребностями.

Добавление произвольных команд в сервисе Ai-Thinker Voice

Шаг 9: Генерация прошивки.
После настройки всех параметров нажмите кнопку generate a new version («Сгенерировать новую версию») и укажите для неё описание. После этого вы перейдете в раздел голосового SDK, где увидите свой продукт. Нажмите вкладку generate SDK («Сгенерировать SDK»). Генерация SDK или прошивки займет максимум 30-35 минут. Теперь загрузите сгенерированную прошивку и распакуйте файл.

Генерация прошивки для модуля в сервисе Ai-Thinker Voice

Шаг 10: Загрузите утилиту прошивки UniOneUpdateTool.

Загрузите файлы Unicommon.dll, UniCommunicateSwitch.dll и UniOneUpdateTool.exe из Hummingbird-M-Update-Tool V1.0.

После установки запустите UniOneUpdateTool.exe и, согласно схеме подключения, соедините все компоненты. Затем подключите USB-TTL кабель к USB-порту ноутбука. Теперь в окне UniOneUpdateTool появится COM-порт.

Страница загрузки утилиты прошивки UniOneUpdateTool

Шаг 11: Прошивка модуля SU-03T.

Прошивка модуля SU-03T

В окне UniOneUpdateTool вы увидите опцию, похожую на  选择 (Choose - «Выбрать»). Нажмите на неё и перейдите в папку с извлеченной прошивкой, выберите файл uni_app_release_update.bin, затем вы увидите 烧录(Programming/Burning - «Программирование/Запись»). Нажмите на эту опцию и подождите, пока все порты не заполнятся желтым цветом. Когда всё завершится, снимите перемычку с контакта питания преобразователя USB в TTL, а затем снова вставьте её. Теперь вы увидите, как прошивка прошивается в модуль. 

Демонстрация работы модуля распознавания голоса в автономном режиме

Применение модулей распознавания голоса в автономном режиме

1. Автоматизация умного дома.
Модули распознавания голоса в автономном режиме могут использоваться для управления бытовой техникой, такой как освещение, вентиляторы и другие электронные устройства, с помощью голосовых команд. Это позволяет пользователям легко управлять устройствами без использования выключателей или мобильных приложений.

2. Вспомогательные технологии.
Системы голосового управления могут помочь пожилым людям и людям с ограниченными физическими возможностями более удобно управлять электронными устройствами. Простые голосовые команды позволяют им включать и выключать свет без необходимости физического взаимодействия.

3. Промышленная автоматизация
В промышленных условиях голосовое управление может использоваться для управления определенными машинами или индикаторами, где ручное управление может быть затруднено. Автономные голосовые системы повышают надежность, поскольку не зависят от подключения к интернету.

4. Автомобильные системы управления.
Автономное распознавание голоса может быть интегрировано в транспортные средства для управления такими функциями, как освещение, музыкальные системы или навигационные функции. Это позволяет водителям управлять системами без помощи рук, повышая безопасность и удобство. Низкая стоимость.

5. Образовательные и встроенные системные проекты.
Автономные голосовые модули широко используются в образовательных проектах и ​​исследованиях для демонстрации голосового взаимодействия человека и машины.

Применение модулей распознавания голоса в автономном режиме

Устранение неполадок в автономном модуле распознавания голоса SU-03T

Проблема 1: Голосовая команда не распознается.
Решение: Это может произойти, если произнесенная команда не совсем точно соответствует предопределенной команде, хранящейся в модуле. Убедитесь, что команда произнесена четко и с правильным произношением. Также проверьте, загружен ли в модуль правильный набор данных голосовых команд с помощью официального инструмента настройки.

Проблема 2: Светодиод не включается и не выключается.
Решение: Проверьте проводку между модулем SU-03T и светодиодом. Убедитесь, что светодиод подключен к правильному выводу GPIO с токоограничивающим резистором. Также проверьте, соответствует ли конфигурация выходного вывода в программном обеспечении фактическому подключению оборудования.

Проблема 3: Модуль не реагирует на голосовой ввод.
Решение: Это может произойти, если микрофон неправильно улавливает звук или если модуль неправильно питается. Убедитесь, что модуль получает необходимое питание и что область микрофона не заблокирована. Разговор ближе к модулю также может улучшить обнаружение звука.

Проблема 4: ШИМ-управление работает некорректно.
Решение: Если яркость светодиода или скорость вращения двигателя не изменяются, убедитесь, что вывод ШИМ правильно настроен в программном обеспечении. Проверьте, правильно ли подключен выходной вывод ШИМ к устройству, и подтвердите правильность настроек коэффициента заполнения.

Проблема 5: Модуль не обнаружен при настройке через компьютер.
Решение: Убедитесь, что USB-to-Serial преобразователь или программный интерфейс правильно подключены. Установите необходимые драйверы и проверьте, что в программном обеспечении для настройки выбран правильный COM-порт. Перезапуск программного обеспечения или повторное подключение модуля также могут решить проблему.

Возможные усовершенствования проекта

  • Управление несколькими устройствами.
    Систему можно расширить для управления несколькими устройствами, такими как вентиляторы, двигатели и бытовая техника, используя различные голосовые команды.

  • Коммуникации/прошивка. Интеллектуальная интеграция с домашней системой.
    Может быть интегрирована с полноценной системой «умного дома» для управления освещением, системами безопасности и другими устройствами автоматизации.

  • Интерфейс мобильного приложения.
    В мобильное приложение можно добавить функции мониторинга и управления устройствами, а также голосовые команды.

  • Управление двигателями и электроприборами.
    Систему можно усовершенствовать для управления двигателями, насосами и другими электроприборами с помощью голосовых команд.

  • Расширение возможностей пользовательских голосовых команд.
    Можно добавить больше голосовых команд для расширения функциональности и управления большим количеством операций в системе.

Часто задаваемые вопросы

⇥ Требуется ли для работы модуля подключение к интернету?
Нет, модуль работает полностью в автономном режиме. Все голосовые команды обрабатываются внутри модуля, что делает систему быстрее и надежнее.

⇥ Как добавить голосовые команды в модуль?
Голосовые команды можно настроить и загрузить с помощью официальных инструментов настройки и SDK, доступных на платформе, предоставляемой Ai-Thinker.

⇥ Каковы основные преимущества использования модуля распознавания голоса в автономном режиме?
Распознавание голоса в автономном режиме обеспечивает более быстрое время отклика, повышенную конфиденциальность и лучшую надежность, поскольку не зависит от подключения к интернету.

⇥ Может ли модуль управлять устройствами, помимо светодиодов?
Да, модуль может управлять различными устройствами, такими как двигатели, реле, вентиляторы и другие приборы, через свои контакты GPIO, в зависимости от схемы.

⇥ Можно ли изменить или обновить голосовые команды позже?
Да, голосовые команды можно изменить или обновить, перенастроив параметры в платформе SDK и загрузив новую прошивку в модуль.

⇥ Сколько времени занимает генерация новой прошивки для SU-03T на портале Ai-Thinker SDK?
После нажатия кнопки «Сгенерировать новую версию» прошивка будет скомпилирована на облачном сервере Ai-Thinker примерно за 30-35 минут. После этого вы сможете загрузить ZIP-файл (содержащий скомпилированную прошивку) из списка версий SDK. После загрузки ZIP-файла распакуйте его и найдите файл uni_app_release_update.bin для процесса прошивки.

⇥ Какой инструмент рекомендуется для прошивки голосового модуля SU-03T?
Рекомендуемый инструмент для прошивки SU-03T — это UniOneUpdateTool (входит в пакет Hummingbird M Update Tool V1.0). Подключите SU-03T к компьютеру через USB-TTL преобразователь, выберите файл прошивки .bin в программе, нажмите «Записать», дождитесь, пока все порты загорятся желтым цветом, а затем перезагрузите SU-03T после завершения процесса.

Заключение

В этом проекте демонстрируется реализация простой автономной системы голосового управления с использованием модуля распознавания голоса SU-03T. Система показывает, как голосовые команды могут использоваться для управления электронными устройствами без подключения к интернету. Она подчеркивает преимущества автономного распознавания голоса, такие как более быстрая реакция, повышенная надежность и лучшая конфиденциальность. Настраивая голосовые команды через SDK Ai-Thinker для автономного распознавания голоса и прошивая микропрограмму с помощью UniOneUpdateTool, вы получаете надежную, конфиденциальную систему голосового управления с низкой задержкой, не требующую подключения к интернету. Проект также показывает, как выходы GPIO и PWM могут использоваться для управления такими устройствами, как светодиоды, с помощью голосовых команд. В целом, система представляет собой практический пример голосового взаимодействия человека и машины во встроенных системах. Подобные системы могут быть в дальнейшем расширены для автоматизации и интеллектуального управления в будущем.

(Проголосуй первым!)
Загрузка...
9 просмотров

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *