В настоящее время в среднем 2500 песен загружаются каждый час на Spotify, Apple Music, YouTube и другие потоковые платформы, что составляет 60 000 песен в день и миллион музыкальных треков каждую неделю. Каждый день среднестатистический американский пользователь тратит почти 3-4 часа на прослушивание своих любимых песен. Но задумывались ли вы когда-нибудь о технологиях, стоящих за этими песнями, и удивлялись ли вы, слыша разные инструменты одновременно?
Каждый инструмент имеет свой собственный звук, который, кажется, исходит из разных мест, будь то гитара, флейта, барабан или что-то еще, где звук проходит через пару проводов к вашим ушам. Как это возможно?
В реальном мире любой слышимый звук является результатом вибрации наших барабанных перепонок. Эти звуки часто распространяются по воздуху и вызывают вибрацию в воздухе, которая достигает наших барабанных перепонок и заставляет их двигаться вперед и назад. Высокие звуки заставляют барабанные перепонки двигаться вперед и назад больше раз в секунду, чем низкие звуки.
Все проекты на нашем сайте, затрагивающие тематику цифрового звука, вы можете посмотреть по следующей ссылке.
Основные понятия цифрового звука
Эта статья призвана познакомить вас с основными концепциями цифрового звука и терминологией, связанной с этим. Если что-либо из нижеперечисленного имеет для вас смысл, то это хорошее место, чтобы начать!
Вы хотели узнать:
- Что означает оцифровка звука?
- Каков процесс дискретизации и оцифровки аудиосигналов?
- Как частота дискретизации, битовая глубина и разрешение связаны с дискретизацией и квантованием?
- Что такое моно, стерео и объемный звук в цифровом аудио?
Если да, то давайте углубимся в основные концепции цифрового звука.
Амплитуда и частота
Два самых важных аспекта аналогового звука — амплитуда и частота. Давайте обсудим основные свойства звуковых волн и выясним, почему разные звуки отличаются друг от друга.
Амплитуда: В аудио амплитуда относится к интенсивности сжатия и расширения, испытываемого средой (в основном воздухом), через которую проходит звук. Она измеряется в децибелах (дБ) и воспринимается нами как громкость тона. Чем выше амплитуда, тем громче звук.
Частота: Частота определяется как количество раз, которое среда испытывает вибрацию за одну секунду. Она измеряется в герцах (Гц) и также называется высотой тона. Низкочастотный звук распространяется дальше, чем высокочастотный звук. Например, частота барабанного боя ниже частоты флейты.

Рис. 1: Низкочастотный сигнал

Рис. 2: Сигнал низкой амплитуды
Человек может слышать частоты от 20 Гц до 20 000 Гц. Частоты выше 20 000 Гц называются ультразвуком, а частоты ниже 20 Гц называются инфразвуком, который человек слышать не может.
Что такое «цифровое аудио»?
Цифровое аудио — это технология записи, обработки, хранения и передачи аудиосигналов через компьютерную систему через интернет. Компьютеры могут понимать только сигналы, закодированные в двоичные числа. Но любой аудиоконтент по своей сути аналоговый, и наши процессоры не могут его интерпретировать.
Чтобы представить аудиосигналы таким образом, чтобы компьютеры могли их понимать и обрабатывать, данные необходимо преобразовать в цифровую (двоичную) форму.
Процесс требует различных шагов. Обычно аналоговые аудиосигналы находятся в форме непрерывных синусоидальных волн, тогда как цифровые аудиосигналы представляют собой дискретные точки, которые показывают амплитуду формы волны. Непрерывные сигналы должны быть преобразованы в дискретные сигналы, поскольку они предоставляют конечные и счетные значения после определенного интервала времени для использования компьютером.
Дискретизация и квантование или оцифровка аудиосигналов
Процесс преобразования начинается с аналого-цифрового преобразования (АЦП). Процесс АЦП должен выполнять две задачи, а именно, выборку и квантование. Выборка означает количество выборок (значений амплитуды), полученных через регулярные интервалы времени. Частота выборки — это количество выборок, полученных в секунду, которое измеряется в герцах (Гц). Если мы запишем 48000 выборок в секунду, частота выборки (дискретизации) составит 48000 Гц или 48 кГц.
Частота дискретизации (Fs)= 48 кГц
Период выборки (Ts)= 1/Fs

Рис. 3: Дискретизация аудиосигналов на более низкой частоте 100 Гц

Рис. 4: Дискретизация аудиосигналов на более высокой частоте 3000 Гц
Дискретизация звука с частотой ниже определенной границы (рассмотренной далее) будет приводить к ухудшению качества цифрового звука.
Частота дискретизации против звуковой частоты
Меньший интервал дискретизации позволяет использовать более высокую частоту дискретизации, что приводит к более высокой частоте звука и большему размеру файла, а в конечном итоге к более качественному звуку. Поэтому, очевидно, что частота дискретизации должна быть достаточно высокой для оцифровки без потерь.
Частоты, которые больше половины частоты дискретизации, не могут быть представлены в цифровых отсчетах. Согласно теореме Найквиста, непрерывный во времени сигнал может быть идеально восстановлен из его цифровых отсчетов, когда частота дискретизации более чем вдвое превышает самую высокую звуковую частоту.
Частота Найквиста: частота дискретизации должна быть как минимум вдвое больше Fmax.
Fs > 2Fmax

Рис. 5: Выборка аудиосигналов
Алиасинг: Алиасинг — это тип артефакта или искажения, который возникает, когда сигнал дискретизируется на частоте, меньшей, чем в два раза превышающей самую высокую звуковую частоту, присутствующую в сигнале. Алиасинг часто приводит к разнице между сигналами, восстановленными из образцов, и исходным непрерывным сигналом. Это зависит от частоты и частоты дискретизации сигнала. Например, если сигнал дискретизируется с частотой дискретизации 38 кГц, любые частотные компоненты выше 19 кГц создают алиасинг.
Фильтры сглаживания: Процесс сглаживания можно избежать, используя фильтры нижних частот или фильтры сглаживания. Эти фильтры применяются к входным сигналам до дискретизации, чтобы ограничить полосу пропускания сигнала. Фильтры сглаживания удаляют компоненты выше частоты Найквиста и позволяют восстанавливать сигналы из цифровых выборок без дополнительных искажений.
Битовая глубина: в двух словах, битовая глубина — это количество бит, доступных для каждого образца. Компьютеры понимают и хранят информацию только в двоичных цифрах, т. е. 1 или 0. Эти двоичные цифры называются битами. Большее количество бит определяет, что больше информации было сохранено. Следовательно, чем больше битовая глубина, тем больше данных будет захвачено для получения более точного результата.
Динамический диапазон: Битовая глубина также определяет динамический диапазон сигнала. Когда дискретизированные сигналы квантуются до ближайшего значения в пределах заданного диапазона, эти значения в пределах этого диапазона определяются битовой глубиной. Эти динамические диапазоны представлены в децибелах (дБ). В цифровом аудио 24-битный звук имеет максимальный динамический диапазон 144 дБ, тогда как 16-битный звук имеет максимальный динамический диапазон 96 дБ.
Битовая глубина 16-битного цифрового звука с частотой дискретизации 44,1 кГц широко используется в потребительском аудио, тогда как 24-битный звук с частотой дискретизации 48 кГц используется в профессиональном аудио для записи, микширования, хранения и редактирования контента.
Квантование аудиосигналов
Это процесс отображения аналоговых аудиосигналов с бесконечными значениями из большого набора данных в цифровые аудиосигналы с конечными и счетными значениями в меньшем наборе данных во время аналого-цифрового преобразования (АЦП). Битовая глубина играет важную роль в определении точности и качества квантованного значения. Если аудиосигнал использует 16 бит, то максимальное количество представленных значений амплитуды составляет 2^16= 65 536 значений.
Он показывает, что амплитуда сигнала делится на 65 536 выборок, и амплитуде всех выборок будет присвоено дискретное значение из диапазона возможных значений. Во время этого процесса может произойти небольшая ощутимая потеря качества звука, но это обычно не осознается человеческим ухом. Эта потеря обусловлена разницей между входным значением и квантованным значением и описывается как ошибка квантования.
Рис. 6: Соотношение между частотой дискретизации на разных частотах и ошибкой квантования
Моно, стерео и объемный звук в цифровом аудио
Монофонический (монофонический) звук — это система, в которой все звуки объединяются и передаются через один канал. Он использует только один канал при преобразовании сигнала в звук. Даже если есть несколько динамиков и звук идет через разные динамики, это дает эффект звука, идущего из одного динамика или одного источника.
Стереофонический (стереофонический) звук — это противоположность монозвуку. Он использует два независимых канала (левый и правый), которые создают эффект звуков, идущих с разных направлений в зависимости от динамика, на который вы посылаете сигнал. Он обеспечивает слушателям иллюзорное многомерное ощущение звука и равномерное покрытие как левого, так и правого каналов.
Стереозвук начал вытеснять монозвук из-за лучшего качества звука и большего количества каналов.
Объемный звук обогащает точность воспроизведения звука для слушателей, используя несколько каналов. Он заставляет аудиторию слышать звук, идущий с 3 или более направлений. Помимо левого, правого и центрального, объемный звук может быть услышан спереди и сзади, что обеспечивает ощущение звука, идущего со всех направлений к слушателям. Он широко используется в аудиосистемах, таких как домашний кинотеатр, разработанный Dolby & DTS, доступный в 5.1 и 7.1 каналах.
Заключение
Цифровое аудио преобразует аналоговые сигналы в дискретную (двоичную) форму, в которой они могут храниться и обрабатываться в компьютерной системе. Цифровые аудиосистемы в настоящее время повсюду, будь то телефоны, музыкальные системы, компьютеры, домашние аудиосистемы, устройства для конференций или любые другие интеллектуальные устройства. Это дает множество преимуществ по сравнению с традиционной записью и воспроизведением песен с использованием аналоговых музыкальных систем. Наряду с различными функциями персонализации цифровое аудио обеспечивает высококачественный звук, надежность, больше места для хранения, беспроводное подключение, портативность и действительно захватывающий опыт для пользователей.
В него внедряются различные новые технологии, такие как 3D-аудиоэффекты, объемный звук, звук Dolby, например, Dolby Atmos, Dolby Digital, DTS: Virtual X, чтобы дать слушателям сюрреалистический опыт. Прорывные технологии, такие как искусственный интеллект и машинное обучение, обеспечивают более персонализированный опыт для пользователей. Возможности безграничны!
49 просмотров