ОСТАВЬ СПЕКТРОМЕТР, ВСЯК СЮДА ВХОДЯЩИЙ !


Традиционные инструментальные измерения в технологии mp3 дают довольно невнятные результаты — виновата в этом психоакустическая модель.


Обычно линейность частотной характеристики при работе с mp3 замеряется следующим образом. Берется сигнал белого шума, записывается в формате wav-файла и затем кодируется в mp3. Потом проводят декодирование снова в wav, и уже для него делается спектрограмма. Можно, конечно, проделать то же самое и с музыкальными фрагментами, однако тогда будет получен усредненный результат. Когда обрабатывается реальный музыкальный сигнал, характеристики тракта меняются динамически и по достаточно сложному алгоритму. Удается фиксировать лишь очень грубую работу программ, как, например, обрезание верхних частот некоторыми кодерами и на некоторых битрейтах.


В последнее время энтузиасты сжатого звука стали использовать так называемые сонограммы — на них по горизонтали отражается спектр сигнала, а по вертикали — его временная динамика. Получаются очень красивые картинки, напоминающие буйство пламени на пожаре, однако и они часто не соответствуют субъективным оценкам звучания. Ведь в случае с mp3 никто точно не знает, какие частоты маскируются другими, поэтому возникший внезапно провал в спектрограмме может не отразиться на звучании фрагмента.


Никто еще не смог пока предложить общедоступную методику измерений, которая позволила бы адекватно оценивать характер и уровень всех искажений, вносимых в исходный сигнал кодерами и плейерами. И которая дала бы четкий и однозначный ответ, почему одни mp3 кажутся тембрально и динамически обедненными по сравнению с оригиналами в wav-формате, а другие — нет. Так что вся надежда — на собственные уши. В конце концов, все делается ради них, любимых.


ГЛОССАРИЙ


AAC — Advanced Audio Coding (прогрессивное кодирование звука), алгоритм сжатия звуковой информации, основанный на спецификации MPEG-2. Обеспечивает более высокое, чем у MPEG-1 Layer 3 (mp3), качество звука при меньших скоростях потока.


AC-3 — Audio Code number 3 — Аудиокод номер 3 — технология многоканального сжатия музыкальной информации, разработанная Dolby Laboratories для использования в системах домашнего кинотеатра.


D.R.I.V.E. — Dynamic Resolution Intensive Vector Enhancement (Интенсивное векторное улучшение динамического разрешения), фирменная технология Kenwood, применяемая в CD и MD-проигрывателях. Призвана уменьшать шумы квантования низкоуровневых сигналов. В сочетании со специальными низкочастотными фильтрами повышает разрешение системы до уровня, характерного для 20-битовых ЦАПов. На слух проявляется в снижении искажений, характерных для сигналов малого уровня.


DAE — Digital Audio Extraction, извлечение цифровой аудиоинформации с компакт-диска и запись ее на винчестер компьютера. В силу особенностей стандарта CD-DA это самое DAE является довольно нетривиальной задачей и может качественно выполняться далеко не каждым компьютерным дисководом CD-ROM.


DIVX — технология сжатия видеоинформации, основанная на спецификации MPEG-4 и применяемая пиратами для распространения видеофильмов в сети Интернет.


LAME — этот проект с отрытым кодом был создан, чтобы обойти ограничения, налагаемые патентами на технологию mp3. Исходные тексты кодера LAME свободно распространяются в Интернете. Согласно общепринятому мнению, именно этот кодер обеспечивает наиболее высокое качество кодирования в mp3.


Legato Link — оригинальная технология, разработанная Pioneer, чтобы «восстановить» слабые высокочастотные составляющие музыкального сигнала, которые были записаны на студийную фонограмму, но были потеряны при перенесении музыкальной информации на компакт-диск.


Liquid Audio — коммерческий формат сжатия аудиоданных, основанный на алгоритмах AAC и AC-3.


mp3 — MPEG-1 Layer 3, цифровой формат сжатия аудиоданных, построенный на основе психоакустической модели. Главное в ней — идея о том, что тихие сигналы маскируются более громкими, а потому могут быть удалены при сжатии информации без заметных на слух потерь для качества звучания.


SafeDisk — хитрая антипиратская система, используемая для защиты от копирования дисков с компьютерными играми.


wav-файл — файл с расширением wav, в который записывается побитовый цифровой поток аудиоданных. То самое, по существу, что записывается на обычный компакт.


Xing — сокращенное от XingMP3 Encoder — программа-кодер, принадлежащая Xing Technology, знаменитая высокой скоростью работы и низким качеством звучания закодированных ею файлов.


Битрейт (скорость потока) — с помощью этой величины характеризуют степень сжатия аудиоданных. Обозначается в килобитах в секунду (Кб/с) и показывает, сколько бит аудиоданных передается в потоке за единицу времени. Чем меньше эта величина, тем больше степень сжатия и тем ниже качество звучания.


Джиттер — искажение формы цифрового сигнала, происходящее из-за нестабильности тактовых генераторов и помех в цифровых цепях.


Александр Радзишевский — бывший наш соотечественник, живущий теперь в Израиле, автор и ведущий сайта websound.ru, посвященного цифровому звуку.


Евгений Игнатьев — aka DJ Юджин, постоянный автор сайта ixbt.stack.net


Кодер (кодек) — программа или аппаратное устройство, осуществляющее сжатие цифрового звукового потока.


Декодер — программа или аппаратное устройство, осуществляющее восстановление цифрового звукового потока из сжатого состояния.


Риппер — программа, осуществляющая DAE (см. выше).


Питч — от англ. pitch — высота тона. В данном контексте обозначает кратное увеличение частот сигнала.


Твердотельная память («флэш») — запоминающее устройство, построенное на микросхемах, не требующих внешнего электропитания.


ГИБДД — государственная организация, сотрудники которой занимаются на улицах розничной продажей полосатых палочек.


Гомер (VIII в. до н.э.) — слепой греческий поэт, которому приписывается авторство поэм «Илиада» и «Одиссея».


Шлиман Генрих (1822 — 1890 гг.) — немецкий археолог-любитель, наживший огромное состояние торговлей. В 1863 г. оставил коммерческую деятельность и занялся отысканием упоминаемых в гомеровском эпосе мест. Предположив, что древняя Троя расположена под холмом Гиссарлык в Малой Азии, начал вести там раскопки. Шлиман был самоучкой и применял весьма несовершенную методику, но все же сумел доказать, что гомеровский эпос имел фактическую основу.


 
ЦИФРОВАЯ ИЛИАДА

Пять мифов об mp3

"Миф есть вымысел, получивший признание всего общества."

Платон

Дмитрий ЛОВКОВСКИЙ




ДАВНО УЖЕ НЕ РАДУЕТ МЕНЯ МОЯ «ГОЛОВА». КАССЕТНЫЙ МЕХАНИЗМ В НЕЙ РАБОТАЕТ ЧЕРЕЗ ПЕНЬ-КОЛОДУ, РАДИОСТАНЦИИ С ХОРОШЕЙ МУЗЫКОЙ КУДА-ТО ПОДЕВАЛИСЬ. КОРОЧЕ, ПОЯВИЛАСЬ УВАЖИТЕЛЬНАЯ ПРИЧИНА КУПИТЬ СЕБЕ ЧТО-НИБУДЬ НОВОЕ. ВЫБОР ТЕПЕРЬ СТАЛ БОЛЬШЕ И ИНТЕРЕСНЕЕ. КАКОМУ НОСИТЕЛЮ ИНФОРМАЦИИ ОТДАТЬ ПРЕДПОЧТЕНИЕ? НАДОЕВШЕЙ КАССЕТЕ? CD? MD? ИЛИ СТРЕМИТЕЛЬНО ВХОДЯЩЕМУ В МОДУ MP3?




ДУМАЮ, перед подобной альтернативой стоят сейчас многие. Выбор непростой. С кассетами, компакт- и мини-дисками все более или менее ясно. А вот с mp3 — сплошные непонятки, по крайней мере, для людей, далеких от компьютерных технологий. А там, где возникает информационный дефицит, создается благоприятная почва для мифов. Частично ее оживляет спонтанное народное творчество, а наиболее плодородные участки интенсивно возделываются рекламистами.




Реклама любого Гомера за пояс заткнет. Прекрасная Елена теперь раскручивает яблочные соки, Ахилл продает ботинки, а Одиссей зазывает в морские круизы.




Кстати, до того, как Шлиман откопал развалины Трои, Гомера считали сказочником. Что мог увидеть слепой в далеких краях, где и не был?! Грань, отделяющая в мифе реальность от вымысла, весьма тонка, размыта и подвижна. То, что вчера считалось устным народным творчеством, может завтра стать общепризнанным научным фактом. Вспомните (кто может) первые проигрыватели компакт-дисков. Эстетический шок от их звучания был связан тогда почти исключительно с отсутствием так доставших всех шумов магнитной ленты. Потом взор прояснился, стало ясно, что первые CD-проигрыватели (и первые CD) не венец творения. Прогресс, конечно, на качестве звучания последующих поколений сидишников сказался сильно, однако теперь самые заурядные CD служат своеобразным эталоном, с которым сопоставляют появляющиеся новые звуковые форматы. А те, в свою очередь, могут когда-нибудь и вправду подняться на качественно новый уровень «перцептуального» восприятия. И тогда миф, созданный глухими гомерами конца XX века, станет чистейшей правдой.




МИФ ПЕРВЫЙ, ОПТИМИСТИЧЕСКИЙ:




При кодировании в mp3 со скоростью потока 128 — 160 Кб/с достигается звучание, неотличимое по качеству от оригинала на компакт-диске.

Замечу сразу: убивать этот миф я не собираюсь, лишь распорю у него аккуратненько швы и посмотрю, что там внутри. Зачем портить людям настроение? Вера в «CD-качество» согревает многих — и многочисленных поклонников mp3, и рекорд-компании, ведущие бескомпромиссную борьбу с пиратством. Впрочем, о страданиях звукозаписывающих корпораций мы поговорим позже, а пока вернемся к сути вопроса.

Лет пять назад даже в публикациях, претендующих на серьезность, соответствующим «качеству компакт-диска» называли битрейт 128 Кб/с. И до сих пор файлы с такой скоростью потока составляют большинство в обменных сетях Интернета, хотя необходимо участие пары медведей, чтобы уподоблять зажатое звучание подобных файлов компакт-диску. Сопоставлять можно, никто не запретит. Уподоблять — нельзя.




Этот миф, старейший в серии, возник из-за того, что с файлами mp3 сравнивалось звучание CD в компьютерных дисководах. В те времена даже бюджетные звуковые карты имели несравненно более совершенные ЦАПы, чем дешевые 12 — 14-битовые конверторы дисководов. Если оценивать по такой методе звучание файлов с битрейтом хотя бы 192 Кб/с, можно дослушаться до того, что их качество окажется даже выше, чем у оригинального CD.




Пользующая mp3 публика теперь достаточно подкована, чтобы понимать такие тонкости, поэтому оценка качества сжатой музыки проводится в наши дни иначе. Берут компакт-диск, считывают с него на винчестер компьютера информацию в wav-файл, затем делают из него эмпишник. Потом эта «консерва» откупоривается декодером, то есть из нее извлекается wav-файл, уже испытавший хирургическое вмешательство по психоакустической модели. Оба этих файла записываются на CD-R-болванку и прослушиваются на системе с достаточно высоким разрешением. Подобное исследование провел еще в начале 2000 года германский компьютерный журнал «c’t». А в отчете о нем сообщил, что большинство экспертов не заметили разницы между оригинальными и прошедшими процедуру сжатия фрагментами.




Немцы обычно отличаются занудной дотошностью, и здесь она проявилась в подробном описании методики сравнения и перечислении использованных музыкальных фрагментов. Особый упор делался на крутизну проигрывателя, усилителя и акустики — назывались какие-то кошмарные цены, но при этом в публикации «забыли» упомянуть такую важную деталь, как кодер, которым делались mp3.




Впрочем, подобные тесты проводил и я сам, правда, на заметно более скромной технике. И приходил к похожему результату. И вправду, при сравнении исходных и декодированных фрагментов заметить между ними разницу было довольно трудно.* Но...




Мы ведь не слушаем mp3 таким изощренным способом. А при тестировании в условиях, максимально приближенных к реальным, когда сравнивался mp3, непосредственно проигрываемый программой-плейером и декодированный ею же в wav-файл, обнаружилось, что перепутать их невозможно. Причем справедливо это не только для mp3, но и для файлов Liquid Audio (форматы AAC и AC-3), потенциально способных на значительно большее, чем mp3. Объяснения этому феномену у меня пока нет.




До сих пор никто почему-то не обращал внимания на совершенно «ушеслышный» факт, что одни и те же mp3-файлы, воспроизводимые с разных носителей и разных аппаратов, звучат тоже по-разному. Проигрыватели на основе твердотельной памяти («флэшек») играют почему-то лучше, чем CD/mp3-плейеры. Возможно, это джиттер виноват. Впрочем, по всей логике прогресса именно за твердотельными носителями будущее, поэтому здесь время все расставит на свои места без нашего вмешательства.




Даже такому деревянному человеку, как Буратино, ясно, что параметры конкретной аппаратуры влияют на наше восприятие музыки ничуть не меньше, чем свойства разных стандартов. Всегда можно найти CD-плейер, на котором компакт-диск будет звучать хуже, чем mp3 — c компьютера. В конечном итоге важен не столько сам формат, сколько его реализация в «железе». Особенно это касается mp3 в автомобиле. Посудите сами: для воспроизведения компакт-дисков имеется совершенная аппаратура, в полной мере реализующая все возможности формата CDDA, а вот появление mp3-плейеров класса High End пока относится к футурологическим аберрациям. Хотя, в принципе, появление mp3-опции в дорогих головных устройствах (JVC KD-SH99, Kenwood Z828, а теперь еще и Alpine CDA-7878) можно расценить как некоторый намек.




В технологиях «кодировании с потерями» (к ним относится и mp3) некоторое отличие от оригинала заложено в сам принцип преобразования. Все люди слышат по-разному, поэтому даже самая лучшая психоакустическая модель может ошибаться. Не ошибается только ГИБДД.




На самом деле миф о «CD-качестве» довольно легко подружить с реальностью — требуется лишь скорректировать его формулировку. Скажем так: mp3 c битрейтом




256 Кб/с не проигрывают по качеству обычным «коммерческим» CD, а разница в звучании хорошего компакта и его же, корректно (это важно!) преобразованного в формат mp3, меньше, чем между хорошим и посредственным CD. Против этого ни один специалист возражать не станет. Кроме закоренелых ретроградов, но те и CD еще не признали...




МИФ ВТОРОЙ, БЕРЕЖЛИВЫЙ:




При кодировании с переменным битрейтом (VBR — variable bitrate) размер файла получается меньше, а качество — выше, чем при битрейте постоянном.

Это как пойдет... Все зависит от характера музыкального фрагмента. Если «сжимать» соло на бас-гитаре, размер файла наверняка заметно уменьшится. У динамических сложных композиций с обилием верхов VBR обычно приводит к «распуханию» файла. Переменный битрейт нацелен на улучшение качества при сохранении приемлемого размера или небольшом его увеличении. Другое дело, что с практической реализацией VBR дела обстоят не лучшим образом.




Если мне не изменяет память, впервые переменный битрейт был реализован в кодере Xing, встроенном в программу AudioCatalyst. Поднятая по этому поводу рекламная шумиха и привела к тому, что многие поверили в VBR и стали возлагать на него надежды, которые до сих пор так и не оправдались. На сегодняшний день более или менее удачная реализация VBR имеется только у кодера LAME. В этом режиме пользователь выбирает желаемое качество компрессии (в командной строке указываются значения от 0 до 9), а кодер уже сам решает, с какой скоростью ему кодировать поток. В документации к LAME недвусмысленно указано, что размер файла при этом совершенно непредсказуем. В качестве альтернативы VBR все тот же LAME предлагает режим Average Bitrate (ABR). В нем пользователь задает некую среднюю скорость потока, а кодер уже решает, когда ее увеличивать, а когда — снижать. При этом достигается лучшее качество, и можно приблизительно прогнозировать размер файла. Похожий механизм реализован под обозначением VBR в кодере Liquid Audio.




Главный недостаток VBR в любых его реализациях в том, что пока не все портативные (и автомобильные) проигрыватели могут воспроизводить файлы, закодированные с переменным битрейтом. Ничего страшного в этом нет. Просто надо внимательно прочитать инструкцию к своему аппарату, и если в ней ничего не сказано про VBR, кодировать файлы для него с битрейтом постоянным. Или устроить маленький тест: а вдруг он «съест» и переменный?




МИФ ТРЕТИЙ, ОБНАДЕЖИВАЮЩИЙ:




Новый стандарт — mp3pro — существенно лучше старого mp3 и открывает небывалые перспективы для любителей сжатого звука.




Этот миф возник не сам — его тоже раздула реклама. Ведь mp3pro — коммерческий продукт.




В нем используется фирменная технология SBR — Spectral Band Replication (репродуцирование частотного диапазона). Суть ее вкратце такова: перед кодированием или в его процессе «отрубаются» частоты выше 8 кГц — за счет этого музыкальный сигнал «впихивается» в относительно низкий битрейт. При декодировании отсутствующие высокие частоты восстанавливаются с помощью «новых методов транспозиции» (так написано в патенте). Детали этих методов держатся в секрете, однако основательные исследования, проведенные Евгением Игнатьевым (ixbt.com) и Александром Радзишевским (websound.ru), позволяют с некоторой степенью вероятности понять их суть. Вот что пишет об этом Евгений Игнатьев:




«...при кодировании с потоком 64 Кбит/c весь сигнал делится на 3 части: 0 — 8,1 кГц, 8,2 — 16,3 кГц, а третью часть выше 16,3 кГц кодер просто отбрасывает. Из оставшихся двух берется часть с диапазоном 8,2 — 16,3 кГц и режется еще на несколько частей, у каждого такого высокочастотного «кусочка» вычисляется средняя мощность сигнала на фрейм, которая в этот же фрейм и записывается, но так, что обычный плейер ее не видит. Часть 0 — 8,1 кГц сжимается «по старинке», т.е. mp3-кодером. Именно эту часть способны увидеть обычные плейеры.




При декодировании все не так просто. Первой декодируется mp3-часть, затем из него выделяется среднечастотный кусок (4,1 — 8,1 кГц), который поднимают до 8,2 — 16,3 кГц при помощи питча (raising pitch). Получившуюся часть тоже делят на куски, а из фреймов достают информацию о мощности, которую присваивают этим кусочкам».




Из тестов, которые провели оба исследователя, становится ясно, что высокие частоты, в сущности, не воссоздаются, а имитируются.




Как полагает известный западный специалист по сжатому звуку Габриель Бовинь (Gabriel Bouvigne), похожий «фокус» уже применялся в технологиях D.R.I.V.E. (Kenwood) and Legato-Link (Pioneer). Разница в том, что в SBR реализован более совершенный механизм восстановления недостающей части спектра. Но сути это не меняет.




«Кодек не пригоден по своей сути для хранения аудиоданных в высоком качестве, — пишет Александр Радзишевский. — Изощренная хитрость, придуманная разработчиками, действительно позволяет создать очень убедительную иллюзию качественного звучания. Я сам попался на этот крючок. Однако, как показали синтетические тесты, примененная хитрость является достаточно грубым приемом, который может сильно сказаться на качестве звучания».




Разработчики не планируют использование своего кодека на скоростях потока выше 96 Кб/с — этот битрейт так и останется максимальным. Так что mp3pro уготована роль чисто сетевого формата, для которого размер файла более важен, чем высокая верность воспроизведения.




МИФ ЧЕТВЕРТЫЙ, КОСМОПОЛИТИЧЕСКИЙ:




Обзоры и тесты программного обеспечения для работы с mp3, публикуемые в западных изданиях (сетевых и оффлайновых), заслуживают доверия.




Да, иногда заслуживают. Но чаще — нет. Для чтения и правильного понимания зарубежных источников требуется не только знание языка, но и своя голова не ниже уровня плеч.




Прежде всего, не следует забывать, что масштаб пиратства в цивилизованных странах не столь высок, как у нас и в Китае — большинство юзеров покупают программы за их полную стоимость. А потому выбирают из них те, что стоят подешевле и умеют побольше, пусть даже и не очень ловко. Соответственно, и обозреватели западных изданий отдают явное предпочтение наиболее полнофункциональным участникам софт-обзоров. При этом обязательно учитывается их цена, — чем программа дороже, тем меньше у нее шансов занять высокое место. К примеру, пакет MultiMedia Jukebox является практически постоянным лидером зарубежных «хит-парадов», поскольку совмещает в себе едва ли не все, что необходимо для записи и воспроизведения mp3, а также для организации музыкальных коллекций. А то, что этот «жукбокс» глючит неимоверно и любую из своих функций делает через выхлопную трубу, создателей рейтингов уже не волнует.




Немалой популярностью в Сети пользуется риппер-кодер AudioCatalist. Обозревателям особенно нравится, что кодирование в mp3 он делает очень быстро даже на довольно дохлых компьютерах. Но при этом DAE (digital audio extraction — цифровое считывание данных с компакт-диска на винчестер) — у него не отличается особой точностью, и поэтому весьма вероятно появление артефактов (щелчков и скрипов), а при кодировании в mp3 все частоты выше 15 кГц отрубаются начисто, без пощады и извинений.




Что особенно интересно, в Сети можно найти бесплатные программы, которые лучше умеют «снимать» аудиотреки с компакт-дисков, более качественно кодируют и значительно удобнее для управления коллекциями, но предпочтение по инерции все равно отдается какому-нибудь монструозному «комбайну».




МИФ ПЯТЫЙ, ТРАГИЧЕСКИЙ:




Звукозаписывающие компании терпят убытки из-за распространения музыки в формате mp3.




Суммы убытков от пиратства обычно подсчитываются очень простым способом: число пиратских копий умножают на стоимость легального диска — вот вам и кошмарные многомиллиардные потери. Как будто бы нищий российский студент, скачавший из Сети сотню «эмпишек», за их отсутствием купил бы всю эту музыку на фирменных дисках. Хотя нынешней месячной стипендии едва хватит только на один, а ведь студенчество норовит еще и кушать, чуть ли не ежедневно.

Кстати, никто особо не пытался в стародавние времена препятствовать копированию фонограмм не только на компакт-кассеты, но и на катушки, а ведь при скоростях от 19 см/с и выше они устраивали по звуку большинство меломанов, да и сейчас бы многим понравились.




Хотя помню жалобы одного продюсера, опубликованные лет 20 назад в одном английском журнале, что, мол, в школах один из учеников покупает пластинку, после чего ее копирует на ленту весь класс. И что? Звукозаписывающий бизнес пошел прахом?




В те времена, кажется, единственным средством борьбы с пиратством были нашлепки на дисках с трагической надписью что-то типа «Copying is killing music» («Копирование убивает музыку»). Видать, плохо копировали, раз не убили.




Борьба с пиратством, кстати, тоже немалых денег стоит. Никто не рассказывает, во сколько обходится разработка разного рода систем защиты от переноса цифровых аудиоданных с CD на жесткий диск компьютеров, но можно догадаться, что удовольствие это не из дешевых, при эфемерной эффективности. Раз уж есть программы, которые позволяют копировать игровые диски, защищенные весьма хитрой системой SafeDisk, то и для музыкальных пластинок они тоже найдутся, можно в этом не сомневаться. На худой конец, будут писать через аналог. Ведь если человека устраивает звучание mp3-файла с битрейтом 128 Kб/с, он такое съест. Есть люди, которые верят, что диски с фильмами в формате Divx не уступают по качеству DVD. Более того, продаются «тряпочные» копии фильмов на VHS-кассетах, и находятся любители, которые их смотрят. Как это ни странно, но значительная часть человечества совершенно индифферентна к качеству изображения и звука — именно эти «пофигисты» и являются обычно потребителями пиратской продукции и довольствуются скачанными из Сети файлами mp3 с двузначными битрейтами.




Думаю, что бороться с пиратами было бы разумнее не в технологической и не в юридической плоскостях, а в экономической. Цены надо на диски снижать. Производители программного обеспечения это давно поняли, не все, конечно. Сколько времени, денег и сил потратила Microsoft на свою систему активации для Windows XP! А как осложнили жизнь добропорядочным легальным пользователям! И что? К моменту официального выхода ОС от новой защитной системы остались лишь голые понты. Не надо жадничать и гнаться за сверхприбылями, тогда и пиратам меньше достанется.

Оригинал статьи - Журнал «Автозвук»

 К списку статей
E-mail: info@icar.ru
оптимизация сайта