Ucho i słuch ludzki. Wysokość dźwięku, zagłuszanie i lokalizacja

Tutoriale

2014-03-24

Ucho i słuch ludzki. Wysokość dźwięku, zagłuszanie i lokalizacja

Wiemy już z pierwszej części artykułu, która pojawiła się w poprzednim numerze, że głośność zależy nie tylko od natężenia czy też poziomu natężenia dźwięku, ale też i od częstotliwości.

Okazuje się, że to działa też i w drugą stronę – wysokość dźwięku zależy nie tylko od częstotliwości, ale też od natężenia. Czymże w takim razie jest owa „wysokość dźwięku”?

Wysokość dźwięku jest wrażeniem słuchowym, umożliwiającym określenie położenia dźwięku na skali częstotliwości. Tyle regułka. Ale okazuje się, że to nie jest takie proste, bowiem dochodzi do tego wspomniany już wpływ głośności dźwięków.

IM WIĘCEJ CIEBIE, TYM MNIEJ

Tak ogólnie, parafrazując słowa znanej piosenki, można scharakteryzować wpływ, jaki na wrażenie wysokości dźwięku ma jego głośność. Przeprowadzając badania na tonach, czyli dźwiękach prostych, których przebieg czasowy jest „czystą” sinusoidą, stwierdzono, że im większe natężenie dźwięku (a więc i głośność), tym dany ton wydaje się niższy niż w rzeczywistości. Zgodnie z rysunkiem 1, przy poziomie głośności powyżej 100 fonów dla niskich tonów różnica ta może wynosić nawet 15 % in minus. Jak widać, efekt ten jest najbardziej słyszalny w zakresie od 80 do 400 Hz. W jaki sposób ta „wada” naszego słuchu może nam popsuć szyki? Otóż może to mieć znacznie wszędzie tam, gdzie występują duże ciśnienia dźwięku, szczególnie „pompowane” wprost do ucha muzyka, a więc w przypadku głośnych monitorów na scenie, a tym bardziej głośnego odsłuchu w słuchawkach – czy to w studiu, czy również na scenie, gdy muzycy korzystają z coraz bardziej popularnych systemów dousznych IEM.

Wystarczy podać wokaliście nagrywającemu czy też śpiewającemu na scenie w „uszach” zbyt głośny odsłuch w słuchawki. Zwłaszcza jeśli miks będzie tak skonstruowany, że głośność podkładu będzie dużo cichsza niż jego własnego głosu. W ten sposób może się okazać, że pomimo perfekcyjnych umiejętności wykonawczych artysty i bardzo dobrego słuchu będzie on cały czas „nad dźwiękiem”, tzn. będzie śpiewał ciut za wysoko. Wynika to w prostej linii właśnie ze zjawiska wpływu poziomu natężenia dźwięku na wrażenie wysokości dźwięku.

Ktoś powie – no dobrze, ale to dotyczy tonów prostych i, w dodatku, w stosunkowo wąskim i niskim paśmie. To fakt, ale jeśli taki wpływ na wysokość tonów prostych ma natężenie dźwięku, to nie mniejszy, jeśli nie większy, wpływ ten przejawiać się będzie w dźwiękach złożonych, czyli takich, z jakimi mamy do czynienia w muzyce. A pasmo? Tutaj trzeba wspomnieć o kolejnej właściwości naszego słuchu.

IMAGINE

Można ją określić w skrócie jako słyszenie czegoś, czego nie ma. I nie chodzi tu bynajmniej o „głosy”, „zwidy” czy „omamy słuchowe”. Okazuje się, że każdy z nas „cierpi” na taką dolegliwość, ale bynajmniej wcale nie jest ona uciążliwa, a wręcz czasami bardzo przydatna. O co chodzi? Dopóki słuchamy pojedynczych tonów o małym natężeniu, wszystko jest w porządku – a więc mniej więcej słyszymy to, co faktycznie gra. Problemy zaczynają się już wtedy, gdy wciąż mamy do czynienia z tonami, czyli w dalszym ciągu z dźwiękami prostymi, ale emitowane są one z większą głośnością. W takim przypadku w naszym uchu zachodzi zjawisko powstawania tonów subiektywnych. Wynika to z nieliniowości w naszym uchu środkowym, a to sprawia, że gdy na ucho działa ton o częstotliwości f, to słyszalne są tony harmoniczne o częstotliwościach 2f, 3f, 4f, itd. Można rzec, że mamy do czynienia z klasycznym „przesterem”, i to wychodzi na to, że „lampowym”, bo powstają zarówno nieparzyste, jak i parzyste harmoniczne. Jaki musi być poziom głośności, żeby to zjawisko zachodziło? Okazuje się, że znowu zależne jest to od... częstotliwości. Dla dźwięków w zakresie od 20 do 100 Hz nawet kilka harmonicznych może pojawiać się już przy poziomie rzędu 20-30 dB (rysunek 2).

Od częstotliwości ok. 1.000 Hz wzwyż poziom jest już mniej więcej stały – druga harmoniczna powstaje przy ok. 50 dB, trzecia gdy dźwięk osiągnie poziom 70 dB, a czwarta powyżej 85 dB. To jeszcze nic. Jeszcze ciekawiej robi się, gdy zamiast pojedynczego tonu mamy do czynienia z kilkoma tonami albo, jeszcze lepiej, dźwiękami złożonymi. Np. w przypadku dwóch tonów o różnych częstotliwościach, f₁ i f₂. Oprócz tonów o częstotliwościach podstawowych i ich harmonicznych ucho usłyszy tony różnicowe i sumacyjne, a więc f₁-f₂, f₁+f₂, 2f₁-f₂, 2f₁+f₂, 2f₁-2f₂, 3f₁+2f₂ itd.

Jakie to wszystko ma znaczenie? Dwojakie. Po pierwsze, biorąc po uwagę, że nasze ucho dokłada nam dodatkowe harmoniczne, tak do końca wcale nie możemy być pewni, że np. skrzypce faktycznie brzmią tak, jak ... skrzypce, gitara, jak gitara a fortepian jak fortepian. To zresztą można samemu sprawdzić. Wystarczy posłuchać sobie nagranie jakiegoś instrumentu cicho, a następnie stosunkowo głośno. Oprócz zmiany barwy wynikającej z krzywych jednakowego słyszenia (przy cichym słuchaniu słyszymy mniej basu i góry, przy głośnym krzywa przebiega mniej więcej poziomo) można też usłyszeć subtelną zmianę brzmienia. Jeśli ktoś usłyszy, a tym bardziej jeśli nie usłyszy, nie ma obaw. Po pierwsze poziom powstających w naszym uchu harmonicznych jest naprawdę niewielki, po drugie liniowość naszych urządzeń odsłuchowych też często pozostawia wiele do życzenia, a więc zmiany mogą wynikać ze zmian wprowadzanych nie tyle przez nasze ucho, co przez nasz system. Żeby więc nie tracić czasu, proponuję uwierzyć na słowo.

Istnieje jednak inny mechanizm, który jest już bardziej odczuwalny, wynikający z powstawania w uchu tonów subiektywnych.

PODSTAWA, TO DOBRA… PODSTAWA

Jeśli mamy dźwięk złożony z kilku harmonicznych, to, zgodnie z tym, co wcześniej napisałem, poszczególne sąsiednie harmoniczne dają ton różnicowy o częstotliwości podstawowej, wzmacniając lub nawet odtwarzając nieistniejący w rzeczywistości ton. Eksperymentalnie udowodniono, że jeśli z widma dźwięku złożonego z kilku harmonicznych o częstotliwości podstawowej dajmy na to 200 Hz „wyrzucimy” ton podstawowy, to ucho i tak odczyta to jako dźwięk złożony, o częstotliwości podstawowej 200 Hz, a nie 400 Hz, jak wynikałoby z analizy widmowej tak „zubożonego” dźwięku.

Teraz wróćmy jeszcze na chwilę do naszego „fałszującego” wokalisty. Rozumiemy już, że nawet jeśli operuje on w wyższych rejestrach, to widmo dźwięków słyszanych w naszym uchu i tak będzie rozciągało się w dół, a więc będzie „podatne” na obniżanie wysokości. Podsumowując – jeśli wokalista będzie słyszał zbyt głośno siebie w słuchawkach, będzie śpiewał ciut za wysoko (gdyż będzie siebie słyszał niżej i próbował „podciągać” do tonacji). Jeszcze gorzej, kiedy podkład będzie za głośno – wtedy może mieć w ogóle problem z trafianiem w odpowiednie dźwięki (znają to też muzycy, którzy mają zbyt wysoki poziom odsłuchu w monitorach na scenie lub odsłuchach osobistych).

DŁUGOŚĆ MA ZNACZENIE

Wróćmy jeszcze do odbierania przez nasz organ, oczywiście słuchu, wrażenia wysokości dźwięku. Okazuje się bowiem, że aby prawidłowo rozpoznać wysokość tonu (i dźwięku również), potrzebna jest minimalna wartość czasu, jaki będzie on trwał. Badania nad tym prowadził człowiek, który kojarzyć nam się może bardziej z samolotami naddźwiękowymi niż z muzyką – Ernst Mach. To właśnie dzięki jego badaniom wiemy na przykład, że dla rozpoznania tonu 128 Hz potrzeba czasu równego minimum 4 do 5 okresów. Polecam sprawdzić osobiście w jakimkolwiek edytorze muzycznym. Mogę podpowiedzieć, że 5 okresów tonu 128 Hz trwa ok. 0,038 s i, szczerze mówiąc, trudno coś powiedzieć o dźwięku po wysłuchaniu takiego „utworu”. Ale już po 8 okresach jest lepiej. Generalnie wraz ze wzrostem częstotliwości tonu będziemy potrzebowali więcej okresów, bo automatycznie czas „odsłuchu” będzie nam się skracał. Np. na rozpoznanie „z grubsza” 1 kHz potrzebowałem ok. 12-15 okresów (0,014s), a na 5 kHz już ponad 40 (ok. 0,010 s.). Jak jest w przypadku 10 kHz nie mam pojęcia, bo brakło mi powiększenia, aby wyodrębnić poszczególne okresy.

ODLEGŁOŚĆ TEŻ MA ZNACZENIE

Inną ciekawostką jest to, że nasze ucho jest zdolne wykrywać, podobnie jak to miało miejsce z głośnością, tylko skończone zmiany częstotliwości. Jednak tutaj nasz organ słuchu jest bardziej wrażliwy. Największą czułość na zmiany częstotliwości wykazuje on dla częstotliwości 2.000 Hz i poziomu dźwięku 70 dB. Możemy w tym zakresie rozróżnić tony różniące się o minimum 3,5 Hz (np. 2.000 Hz i 2.004 Hz). Poza tym wiadomo, że przy poziomie sygnału 40 dB ucho rozróżnia 2.000 różnych tonów w zakresie od 50 do 8.000 Hz. Dotyczy to tylko tonów, gdyż dźwięki złożone mogą być rozróżnialne na podstawie różnic miedzy wyższymi harmonicznymi. Np. tony 60 i 62 Hz są nierozróżnialne, natomiast dźwięki złożone o takich częstotliwościach podstawowych mogą być odróżnione dzięki różnicy między czwartą harmoniczną, wynoszącą 8 Hz.

DUDNI WODA DUDNI

To kolejna własność naszego słuchu, które nie ma nic wspólnego z potocznym pojęciem słowa: dudni (jak owa woda w studni). Dudnienie to zjawisko polegające znów na powstawaniu w naszym uchu dźwięków nieistniejących. Tym razem jednak jest jeszcze ciekawiej – zamiast dwóch dźwięków, które faktycznie są „nadawane”, my słyszymy jeden, ale wibrujący. Dzieje się tak wtedy, gdy ucho jest pobudzane dwoma tonami o mniej więcej takich samych natężeniach i częstotliwościach, różniących się o mniej niż 16 Hz. Zamiast dwóch tonów słyszymy jeden o częstotliwości średniej arytmetycznej częstotliwości tonów składowych, zmieniający swoje natężenie z częstotliwością równą połowie różnicy częstotliwości. Dudnienia są najlepiej słyszalne, gdy różnica częstotliwości wynosi ok. 6 Hz. Zwiększenie tej różnicy powoduje przechodzenie tego dźwięku w nieprzyjemny, wibrujący dźwięk. Zjawisko to jest dobrze znane basistom i gitarzystom strojącym gitary na flażoletach. Dla ciekawostki zjawisko powstawania w naszym uchu, a dokładnie w mózgu, fal o niskich częstotliwościach za pomocą dudnień wykorzystuje się do nadawania do naszego mózgu fal odpowiadających falom mózgowym. W ten sposób można wprowadzić siebie (lub kogoś) w stan pobudzenia, odprężenia lub nawet snu. Ale nie radzę samodzielnie próbować.

NIE SŁYSZĘ, CO USŁYSZAŁEM

Tak, to nie pomyłka. Nasze ucho jest takie „sprytne”, że może się wydarzyć sytuacja, w której nie usłyszymy czegoś, co już usłyszeliśmy. Ale po kolei. Wszyscy, którzy wiedzą, co to jest kodowanie stratne (typu MPEG), wiedzą, że w uchu istnieje mechanizm zagłuszania jednych dźwięków przez inne. Jak zachodzi to zjawisko i dlaczego, to temat na oddzielny artykuł, który kiedyś może ukaże się na łamach LSI. Nas interesuje konsekwencja istnienia tego mechanizmu. Najpierw rozważmy zagłuszanie częstotliwościowe. Co trzeba o tym wiedzieć? Spójrzmy na rysunek 3.

Po pierwsze – zagłuszanie jest największe w sąsiedztwie tonu zagłuszającego. Niewielkie zmniejszenie zagłuszania przy częstotliwości tonu zagłuszającego jest spowodowane zjawiskiem dudnień. Po drugie – zmniejszenie zagłuszania przy częstotliwościach odpowiadających harmonicznym tonu zagłuszającego jest związane z istnieniem tonów subiektywnych (o tym coś już wiemy).

I po trzecie – tony o dużych częstotliwościach zagłuszają wszystkie dźwięki o częstotliwościach większych, natomiast dźwięki o częstotliwościach mniejszych tylko w bezpośrednim sąsiedztwie.

A co z zagłuszaniem czasowym? Logicznym dla każdego jest fakt, iż jeśli bezpośrednio po głośnym dźwięku nastąpi cichszy, zostanie zagłuszony przez ten głośny, nawet jeśli dźwięk, zagłuszający to krótki impuls, który nie będzie wybrzmiewał. Dzieje się tak dlatego, że gdy do ucha dochodzi głośny dźwięk następuje napięcie błony bębenkowej w celu zmniejszenia czułości dla głośnych dźwięków. Powrót do stanu „zerowego” następuje po ok. 100 ms – jest to tzw. czas relaksacji. Jeżeli w tym czasie dotrze do ucha cichy dźwięk, czułość ucha może być zbyt mała, aby ten dźwięk odebrać. Nastąpi więc zagłuszanie „w przód”. Ale nie każdy wie, że taki głośny dźwięk może spowodować, iż zostanie zagłuszony dźwięk, który dotrze do naszego ucha tuż przed nim. W tym przypadku czas, w którym może nastąpić zagłuszenie jest o wiele krótszy i wynosi ok. 10 ms. W ten sposób właśnie może się wydarzyć paradoks, że nie usłyszymy dźwięku, który już usłyszeliśmy (jeśli ktoś potrafi powiedzieć coś sensownego w 10 ms).

ZJAWISKO HAASA

Zbliżając się ku końcowi naszych rozważań słów kilka o ważnym zjawisku, które jest wykorzystywane np. w tzw. nagłaśnianiu strefowym. Istnieje coś takiego jak zjawisko Haasa, polegające na tym, że w zakresie krótkich czasów (do 30 ms) słuch nasz jest mało czuły na opóźnienia dźwięków. Jeśli nadane zostaną dwa dźwięki z opóźnieniem mniejszym niż owe 30 ms, zostaną one odebrane jako jeden, o nieco przedłużonym wybrzmiewaniu. Wraz ze wzrostem czasu opóźnienia zaczynamy już coraz wyraźniej rozróżniać oba dźwięki. Tak dzieje się, jeśli dźwięk opóźniony jest dla nas dźwiękiem zakłócającym dźwięk wcześniejszy.

Inaczej sprawa wygląda, jeśli dźwięk opóźniony jest dla nas ważniejszy. Tak dzieje się np. w sytuacji, gdy zakładamy instalację nagłośnieniową w długim pomieszczeniu (sala wykładowa, kościół), a zależy nam na prawidłowej lokalizacji źródła dźwięku, czyli abyśmy mieli wrażenie dochodzenia dźwięku od mówcy stojącego przed nami, a nie z boku, z głośnika. Należy wtedy zastosować odpowiednie opóźnienie sygnału dochodzącego „po drucie” do głośnika w stosunku do fali akustycznej biegnącej od mówcy, tak aby najpierw dobiegł do naszych uszu dźwięk bezpośredni, a chwilę po nim – z głośnika. Wtedy, pomimo tego że dźwięk „głośnikowy” będzie głośniejszy, na lokalizację wpłynie ten, który dotrze pierwszy, czyli bezpośrednio od mówcy – o ile nie stoimy z uchem przy samym głośniku, bowiem wtedy żadne opóźnienie nie pomoże. Po prostu stosunek poziomu głośności dźwięku z głośnika do dźwięku bezpośredniego będzie za duży, aby ten drugi miał znaczenie dla naszego słuchu.

LOKALIZACJA

Na koniec słów kilka o lokalizacji źródeł dźwięku, czyli jak umiejscawiamy źródła dźwięku w przestrzeni 3D. Ci, którzy byli w harcerstwie pamiętają może, że aby określić jakiś punkt w przestrzeni trzeba podać jego współrzędne. Ponieważ współrzędne kartezjańskie (czyli xyz) nie za bardzo się sprawdzają w takiej sytuacji, lepiej stosować współrzędne biegunowe, czyli:
– promień – odległość od źródła dźwięku,
– azymut – kąt między promieniem a płaszczyzną pionową głowy,
– zenit – kąt pomiędzy promieniem a płaszczyzną poziomą.

Najłatwiejsza jest ocena azymutu, najtrudniejsza – zenitu. Na lokalizację w poziomie wpływają dwa zjawiska, zależnie od częstotliwości dźwięku dobiegającego. W zakresie małych częstotliwości – do ok. 800 Hz – odbywa się ona na podstawie analizy różnicy czasów dotarcia fali dźwiękowej do jednego i drugiego ucha. W tym przypadku głowa stanowi przeszkodę, która jednak jest „do przejścia”, powodując tylko ugięcie fal wokół niej, a to sprawia, że dla ucha, do którego jest „dalej”, dźwięk dochodzi opóźniony. Powyżej 300 Hz lokalizacja odbywa się na podstawie analizy różnicy ciśnień akustycznych, gdyż nasza głowa powoduje powstawanie cienia akustycznego. Jak więc widać, w przedziale od 300 do 800 Hz na lokalizację źródła dźwięku mają wpływ oba zjawiska. Ciekawostką jest, że podobnie jak to jest z rozpoznawaniem częstotliwości i głośności, tak i przy lokalizacji też mamy minimalny kąt, w którym zmiana kierunku jest wyczuwalna. Dla niskich częstotliwości wynosi on 3º, co odpowiada zmianie opóźnienia o ok. 20 μs, podczas gdy maksymalne opóźnienie, odpowiadające dochodzeniu dźwięku całkowicie z lewej lub całkowicie z prawej strony, wynosi ok. 800 μs.

Jak jest z lokalizacją w pionie? Co do tego nie ma pewnych teorii, przyjmuje się więc, że zasadniczą rolę odgrywają ruchy głowy. Natomiast określanie odległości od źródła opiera się prawdopodobnie przede wszystkim na zmianie barwy dźwięku, która wynika z pochłaniania energii akustycznej w atmosferze. Wiadomo, że większemu pochłanianiu ulegają częstotliwości wyższe, a więc zmiana barwy będzie polegała na utracie „góry” w sygnale. Sposób określania odległości nie jest jednak jeszcze do końca rozpoznany i wytłumaczony.

Piotr Sadłoń

Kursy

Produkcja muzyczna od podstaw

50.00 zł

Produkcja muzyczna w praktyce

120.00 zł

Bitwig Studio od podstaw

55.00 zł

Sound Forge od podstaw

40.00 zł

Kontakt 5 Kompedium

60.00 zł

Zobacz wszystkie

MONACOR PA-900 od 1709,00 zł

Monacor... od 1434,00 zł

Behringer DX... od 431,00 zł

Pronomic... od 240,07 zł