Latencja w systemie monitorowym

Tutoriale

2015-01-20

Jeśli mamy do czynienia ze zdarzeniem, którego cechy możemy odnieść do konkretnych wielkości referencyjnych, to jego scharakteryzowanie staje się jednoznaczne i nie pozostawia najmniejszego nawet marginesu dla interpretacyjnej dowolności.

Zupełnie inną sytuacją jest ta, w której ocena dokonywana jest jedynie w tak zwanym poznaniu zmysłowym.

Tu margines dowolności pozostaje w ścisłej oraz bardzo dużej zależności z indywidualną wiedzą, nawykami, odczuciami, preferencjami lub uprzedzeniami osoby, która daną sytuację opisuje.

Z pewnością nie ma tu potrzeby dodawać, że rozbieżnych opinii byłoby w danej sytuacji tyle, ile poproszonych o jej wyrażenie osób. Co ciekawe, o ile być może trudno byłoby każdą z tych opinii w całości zaakceptować, to równie trudno byłoby też każdą z nich w całości odrzucić. Dlaczego? Między innymi dlatego, że dochodzi tu ponownie do głosu wpływ subiektywnych uwarunkowań – w tym przypadku – także osoby, która takiej weryfikacji miałaby dokonać.

Oto przykład z – mówiąc potocznie – zupełnie innej beczki. Jeśli określimy w jakimś mieście trasę od punktu A do punktu B, wyznaczoną charakterystycznymi dla tego miasta budynkami, a następnie stojąc w punkcie A zapytamy przechodniów jak dojść do wskazanego przez nas punktu B, to usłyszymy często: „oj, ale to jest bardzo daleko” lub „to nie jest daleko”. W rzeczywistości zarówno jedno, jak i drugie stwierdzenie można uznać za prawdziwe i jednocześnie nieprawdziwe. Udzielone odpowiedzi będą z pewnością mocno zależne od wieku pytanych osób. Wpływ na subiektywną ocenę odległości wynika tu ściśle z ich własnych możliwości pokonania tej trasy, uwarunkowanych na przykład podeszłym wiekiem, stanem zdrowia oraz tak zwanym poczuciem odległości.

Jeśli następnie sami dokładnie zmierzymy wyznaczoną trasę za pomocą urządzenia dedykowanego do tego typu zastosowań, przyjmując za jednostkę długości (zgodnie z układem SI) 1 metr, a otrzymany wynik wyniesie przykładowo 1.500 m, to nie będzie on oznaczał, że jest to daleko lub blisko, a tylko i wyłącznie to, że długość wytyczonej trasy od punktu A do punktu B wynosi 1.500 m. Mamy tu do czynienia z wynikiem stanowiącym konkretną wielkość fizyczną, która nie pozostawia żadnego marginesu na jej subiektywną interpretację.

Zwróćmy w tym momencie uwagę na to, jak olbrzymią dowolność subiektywnej interpretacji pozostawia ocena muzyki, obrazów, kolorów, komfortu, dyskomfortu, przydatności czegoś itd. Kreatywność w tworzeniu różnych określeń, wynikająca z faktu subiektywnej interpretacji, a także podatności na sugestie, sprawia często niestety wiele problemów natury komunikacyjnej. Zdarza się bowiem, że dwie osoby, opisując to samo zjawisko, posługują się terminologią zrozumiałą dla siebie samych, co w konkretnym przypadku wcale nie znaczy, że zrozumiałą dla siebie nawzajem. Sytuacje takie w połączeniu z niekompletną wiedzą, opartą na permanentnej niechęci do jej gruntownego uporządkowania, są – prócz ograniczonych możliwości we wzajemnym, precyzyjnym porozumiewaniu się – pożywką dla powstawania wielu obiegowych teorii, wysnuwanych na quasi-naukowych podstawach.

Cały ten wywód przeprowadziłem po to, by móc teraz nawiązać do poruszonego w poprzednim numerze tematu systemów umożliwiających samodzielne kreowanie indywidualnego toru odsłuchowego, czyli tzw.

SELF-ADJUST MONITOR MIXING

Wokół opisanej metody realizacji odsłuchu powstało również wiele niczym nieuzasadnionych teorii. Jak to często wcześniej bywało, w przypadku innych urządzeń opartych na technologii cyfrowej, teorie te tworzone są zarówno w wyniku niezrozumienia lub nadinterpretacji pewnego zjawiska towarzyszącego procesowi przetwarzania sygnału, jak też na bazie subiektywnej interpretacji odczuć, wynikających na przykład z różnic pomiędzy korzystaniem ze słuchawek a korzystaniem z podłogowego monitora. Chodzi tu przede wszystkim o latencję, której przypisuje się w przypadku omawianych systemów typu „self-adjust monitor miting” pewne wyjątkowo negatywne oddziaływanie na jakość przesyłanego sygnału audio. Rzekome problemy polegać mają podobno na tym, że jeżeli odsłuchy realizowane są z konsolety przodowej, która zwykle znajduje się w odległości 25-30 m od sceny, to sygnał musi kilkakrotnie pokonać bardzo długi dystans. Po konwersji jest on też wielokrotnie poddawany procesom cyfrowej obróbki, rozsyłany po zbudowanej sieci, po czym ponownie konwertowany do postaci analogowej, i dopiero teraz trafia poprzez słuchawki do uszu muzyków. Cały ten proces może rzekomo wprowadzać tak wielki zakres opóźnienia, że w słuchawkach bywa on słyszalny nawet jako efekt echa!!

No cóż, pamiętam, że kiedy do powszechnego użytku wchodziły przed laty systemy bezprzewodowego odsłuchu osobistego, również towarzyszyło im wiele mitów, dotyczących ich rzekomo licznych mankamentów. Jedna z takich przykładowych opowieści dotyczyła wokalisty zdezorientowanego kompletnie w skutek zjawiska latencji, która jakkolwiek występowała w marginalnym jedynie stopniu, to jednak stanowiła poważną przeszkodę w punktualnym śpiewaniu. Inna opowieść dotyczyła perkusisty, który grał chaotycznie, bo nie potrafił poradzić sobie z echem wywołanym przez 4 milisekundową latencję, powodującą, że słyszał on dźwięk „podwójny” – jakby odbity od tylnej ściany sali koncertowej. Jeszcze inna opowieść traktowała o zjawisku filtracji grzebieniowej, gdzie odbierany poprzez kości czaszki dźwięk, w wyniku mieszania się z opóźnionym dźwiękiem emitowanym przez słuchawki, powodował dziury w paśmie przyczyniające się do ogromnego dyskomfortu, wręcz uniemożliwiającego chwilami pracę na scenie.

Nic dodać, nic ująć! Przedstawione przykłady należałoby zdecydowanie między bajki włożyć – chyba że uzna się je za swego rodzaju „psycho-akustyczny” fenomen. Nieco prawdy, aczkolwiek mocno „zniekształconej”, może zawierać ostatnia opowieść. Warto jednak w tym miejscu od razy powiedzieć, że całkowite opóźnienie rzędu 15 ms może zasadniczo powodować pewne zjawiska związane ze zmianami częstotliwościowymi, ale na pewno nie powoduje ono efektu echa. Zmiany te nie uniemożliwiają też normalnej pracy na scenie. Wrócę do tego wątku w dalszej części materiału.

Wcześniej wyjaśnijmy sobie od razu rzecz elementarną. Otóż, zjawisko latencji nie jest wcale zagadnieniem nowym, podobnie zresztą jak szereg związanych z nim problemów – zarówno tych rzeczywistych, jak i domniemanych.

LATENCJA

Ujmując rzecz najprościej, latencja występuje od zawsze i w każdym – nawet najprostszym – systemie audio. Jest ona opóźnieniem, które wynika z czasu potrzebnego do przetransportowania sygnału z jednego miejsca systemu w drugie lub czasu potrzebnego komponentom cyfrowym na przeprowadzenie procesu przeliczeniowego. Zjawisko to towarzyszy więc nieodłącznie każdemu przesyłowi i procesowi obróbki sygnału audio.

Jednak w dobie dynamicznego rozwoju technologii cyfrowej latencja stała się wręcz dyżurnym tematem oraz problemem, po który zaczęto chętnie sięgać podczas różnych dyskusji. Jej aspekt zdominował w tak wielkim stopniu część branży pro audio, że pytania o latencję zaczęły padać często w pierwszej kolejności – wyprzedzając pytania o wartość innych, w wielu przypadkach bardziej istotnych parametrów. Powaga problemu została wyolbrzymiona do tego stopnia, że firmy oferujące urządzenia do przetwarzania i transportu sygnału cyfrowego były przy każdej okazji wręcz zasypywane lawiną pytań dotyczących skali występowania latencji w oferowanych przez nie produktach.

Taki stan rzeczy zainspirował grupę inżynierów związanych z tymi producentami do zainteresowania się tematem i przeprowadzenia szeregu eksperymentów, których wynik mógłby potwierdzić lub obalić mnożące się „teorie” na temat skali szkodliwego wpływu latencji.

EKSPERYMENT

Na początku odwołali się oni do badań przeprowadzanych wcześniej przez Stanford University Departament of Music. Co ciekawe, badania te dowodziły, że na przykład grający w orkiestrze muzycy nie mają problemu z wzajemną synchronizacją nawet w sytuacji, gdy doświadczany zakres latencji przybiera wartość 40 ms lub większą. Badania te dowodziły także, że opóźnienia w przedziale 10-20 ms mają w rzeczywistości oddziaływanie stabilizujące dla zachowania tempa i przypuszczalnie są one korzystniejsze niż w przypadku latencji o wartości zerowej. Należy jednak mieć na uwadze to, że sytuacja, w której monitorujemy obraz muzyczny w otwartej przestrzeni, docierający bezpośrednio ze źródeł lub za pomocą podłogowego odsłuchu, dostarcza zupełnie innych wrażeń niż ta, gdy jest on monitorowany przy wykorzystaniu słuchawek.

Jeżeli korzystamy z podłogowego odsłuchu, za pomocą którego monitorujemy na przykład własny głos, to swobodnie rozpraszany, opóźniony dźwięk miesza się w uchu z dźwiękiem odbieranym poprzez kości czaszki i trąbkę słuchową. Natomiast zupełnie inne wrażenie słuchowe występuje w sytuacji korzystania ze słuchawek, gdzie słuchacz jest odizolowany od docierających z pomieszczenia odbić, charakteryzujących się różnymi opóźnieniami oraz poziomami.

Inżynierowie zdecydowali więc o przeprowadzeniu własnych eksperymentów na przypadkowo wybranej grupie osób, w której skład wchodzili zarówno profesjonalni muzycy i doświadczeni dźwiękowcy, jak też osoby w żaden sposób nie związane z branżą muzyczną lub nagłośnieniową.

Przeprowadzony eksperyment polegał na monitorowaniu za pomocą słuchawek czytanego z czasopisma tekstu, a także wysłuchaniu rytmicznej partii gitarowej, odegranej przez jednego z muzyków, przy różnych wartościach wprowadzanego opóźnienia. Testy wykazały między innymi, że opóźnienie rzędu kilku milisekund było dla wszystkich osób zupełnie niezauważalne. Okazało się również, że zwiększone opóźnienie nie było zauważalne aż do wartości 10 ms. Zaczęło być ono delikatnie wyczuwalne dopiero w przedziale pomiędzy 10 a 15 ms. Nadal jednak nie było ono identyfikowane jako echo, lecz określane jako „coś”, co w rzeczywistości było trudne do precyzyjnego zdefiniowania. To „coś” nie przeszkadzało jednak w rozumieniu czytanego tekstu ani w utrzymaniu tempa podczas rytmicznego grania na gitarze.

Opóźnienie zaczęło być nieznacznie uciążliwe dopiero po przekroczeniu 15 ms i dalej, ku wartości 20 ms. Po przekroczeniu 20 ms sprawiało już poważne trudności na przykład z zachowaniem punktualnego grania. Precyzyjne granie rytmiczne nie jest możliwe przy długim opóźnieniu, gdyż grający zawsze zmuszony jest do czekania, aby móc usłyszeć zagraną wcześniej nutę. W wyniku tego granie staje się coraz bardziej wolne. Proces ten wywołuje bardzo dziwne uczucie – sprawiające wrażenie, że muzyk ciągle się „potyka”.

Przeprowadzone testy potwierdziły więc, że latencja w skali 10-15 ms nie jest słyszalna jako echo. Poddane testowi osoby zostały wcześniej poinformowane o wprowadzanym opóźnieniu, a mimo to nie identyfikowały go jako efekt echa przy opóźnieniu rzędu 10-15 ms lub mniejszym.

O CZYM WARTO PAMIĘTAĆ?

1. Za każdym razem, kiedy dźwięk jest przetwarzany za pomocą mikrofonu i głośnika, występuje opóźnienie wynikające z transportu sygnału. Dzieje się tak w wyniku drogi, którą musi pokonać dźwięk, zanim dotrze ze źródła do mikrofonu, oraz drogi, którą pokonuje sygnał przechodząc poprzez kolejne urządzenia, a także drogi, którą pokonuje dźwięk od głośników do uszu słuchacza. W pomieszczeniu dociera on do słuchacza wraz z dźwiękiem odbitym od ścian i sufitu pomieszczenia oraz innych elementów architektonicznych.

Przy temperaturze 15˚C dźwięk podróżuje w suchym powietrzu z prędkością około 1.225 km/h lub 34.000 centymetrów na sekundę. Dla łatwiejszego zobrazowania kalkulacji – powiedzmy, że jest to 30.000 cm/sek, a więc dźwięk w powietrzu jest zawsze opóźniony w drodze od źródła do naszych uszu o 1 ms na każde 30 cm.

2. Jeżeli w systemie wykorzystywane są komponenty cyfrowe, to dodatkowe opóźnienie wprowadzane jest w wyniku konwersji sygnału analogowego na cyfrowy, transportu danych w sieci oraz w wyniku ponownej zamiany na sygnał analogowy. Procesory i efekty cyfrowe mogą wprowadzać kolejne porcje opóźnienia, wynikającego z czasu potrzebnego na przeprowadzenie przez nie procesu obliczeniowego. Jednak budowane współcześnie urządzenia, wyposażane są w zupełnie innej klasy przetworniki niż miało to miejsce przed laty. Na przestrzeni lat udoskonalono też wiele rozwiązań stosowanych we współczesnych urządzeniach. Dlatego cały dotyczący latencji problem jest dziś chyba „nieco” wyolbrzymiany. Poza tym do czasu, jak wprowadzany przez komponenty cyfrowe zakres opóźnienia jest policzalny, to może być on uwzględniany i kompensowany w podczas kalkulacji.

3. Prawdą jest natomiast to, że następstwem latencji mogą być dwa inne zjawiska: echo i zniekształcenia fazowe, powodujące filtrację grzebieniową. Dzieje się tak w sytuacji, gdy dźwięk lub przebieg elektryczny miesza się ze swoją opóźnioną wersją. W przenoszonym paśmie pojawiają się wówczas ostre szczyty oraz wcięcia, odnoszące się do pewnych częstotliwości, które w wyniku wzajemnego oddziaływania są silnie wzmacniane lub tłumione. Z uwagi na powyższe latencja jest bezsprzecznie zjawiskiem niepożądanym i wszędzie tam, gdzie tylko jest to możliwe, dobrze jest utrzymywać ją na jak najniższym poziomie.

4. Opóźnienia mniejsze niż 10-15 ms nie są odczuwane jako echo podczas używania systemów odsłuchu osobistego – ani bezprzewodowych, ani rozsyłanych za pomocą skrętki CAT-5E. Co więcej, zredukowanie latencji wcale nie musi wpłynąć korzystnie na poprawę jakości odsłuchu. Znacznie większy wpływ na jakość odsłuchu ma bowiem wiele innych czynników. Należy tu powiedzieć, że nie wszyscy producenci słuchawek konstruują swoje produkty według ujednoliconego standardu dotyczącego polaryzacji. Jeżeli pewne korekcje zostały ustalone przy użyciu jednych słuchawek, a następnie zastosowane zostały słuchawki innej marki – dodatkowo o odwrotnej polaryzacji, to różnica w brzmieniu dla tych drugich może być bardzo znacząca.

5. Pracy w słuchawkach może towarzyszyć również tak zwany „efekt zamknięcia”. Pojawia się on w sytuacji, kiedy obiekt – zwłaszcza nie wentylowany odlew – szczelnie wypełnia zagłębienie małżowiny oraz przedsionek kanału ucha.

Taka sytuacja powoduje, że odbierany poprzez kości czaszki dźwięk wpada w pułapkę i zostaje uwięziony pomiędzy odlewem zatykającym kanał ucha i bębenkiem. W normalnej sytuacji, gdy ludzie mówią (lub żują gumę), generowane wibracje ulatują poprzez otwarty kanał ucha. Jednak w sytuacji, gdy kanał jest szczelnie zatkany przez umieszczony w nim odlew, powstające wibracje odbijają się od napotkanej przeszkody i kierują ponownie w stronę bębenka, wzmacniając poziom percepcji własnego głosu. Porównując do całkowicie otwartego kanału efekt zamknięcia może powodować bardzo duże wzmocnienie ciśnienia dźwięku w kanale ucha, co dotyczy zwykle niższych częstotliwości – poniżej 500 Hz. Zjawisko to przez bardzo długi okres stanowiło duży problem, będąc powodem narzekań wielu muzyków, którzy – zależnie od indywidualnej zdolności do kreowania określeń – twierdzili, że słyszą własny głos jako: „zabawny”, „głuchy” lub „jak z beczki”. Przyczyn tego problemu doszukiwano się początkowo w zupełnie innym miejscu niż tkwią one faktycznie. Dlatego koniecznie trzeba tu podkreślić, że efekt zamknięcia, nie ma nic wspólnego z filtracją grzebieniową, rzekomo powodowaną przez latencję!

Jak zostało to powiedziane już wcześniej, zjawiska latencji nie da się całkowicie wyeliminować, a skoro tak, to należy nauczyć się z nim żyć i dobrze zrozumieć jego istotę, by nie ulegać wielu różnym niedorzecznym teoriom na ten temat, ubieranym niekiedy w swego rodzaju otoczkę mistycyzmu. Co zaś tyczy się krążących mitów – bez względu na wszelkie okoliczności wiele z nich jest doskonałym usprawiedliwieniem dla różnych życiowych sytuacji. Kiedy noc okazała się zbyt krótka i nie wystarczyło czasu na sen, gdy muzyk nie opanował przeznaczonych dla niego partii utworów, a wokalista nie nauczył się tekstów, to chyba trudno o lepszą wymówkę. Jest ona bardzo wygodna zwłaszcza w sytuacji, gdzie nie ma realizatora odsłuchów i każdy z muzyków kreuje indywidualnie swój tor. Żadne urządzenia nie podejmą bowiem polemiki we własnej obronie – nawet wtedy, gdy ktoś stawia im najbardziej absurdalne zarzuty.

Marek Witkowski

Kursy

Produkcja muzyczna od podstaw

50.00 zł

Produkcja muzyczna w praktyce

120.00 zł

Bitwig Studio od podstaw

55.00 zł

Sound Forge od podstaw

40.00 zł

Kontakt 5 Kompedium

60.00 zł

Zobacz wszystkie

MONACOR PA-900 od 1844,00 zł

Behringer DX... od 554,00 zł

Rockbag 23422... od 165,00 zł

Monacor CD-156 od 953,00 zł

Latencja w systemie monitorowym

SELF-ADJUST MONITOR MIXING

LATENCJA

EKSPERYMENT

O CZYM WARTO PAMIĘTAĆ?

Polecane testy

X4L - wzmacniacz z DSP z serii X

RE3 - System bezprzewodowy

ESD Cube - 5-calowy głośnik szerokopasmowy