Ambisonia - dźwięk słyszalny z każdej strony

Choć ambisonia znana jest już od ponad 50 lat, stosunkowo niedawno wygasły prawa patentowe do mikrofonu ambisonicznego. Również współczesna technologia pozwala na łatwą adaptację tego rozwiązania w wielu dziedzinach związanych z nowymi mediami. Na całym świecie trwa obecnie „boom” związany z dźwiękiem imersyjnym. Dźwięk ambisoniczny to odwzorowanie dźwięku w przestrzeni tak, aby brzmiał on w jak najbardziej naturalny sposób. Jest najbardziej zbliżony do rzeczywistego dźwięku, który słuchać nie tylko dookoła nas, ale także poniżej i powyżej poziomu uszu. Odwzorowuje on zatem całą sferę dźwiękową otaczającą człowieka.

Ambisonia jest koncepcją reprodukcji dźwięku przestrzennego opartą o odwzorowanie pola akustycznego, w której w przeciwieństwie do systemów wielokanałowych typu channel-based audio (klasyczne systemy wielokanałowe 5.1; 7.1 etc.), poszczególne ścieżki nie przenoszą informacji o sygnale odpowiadającym tylko jednemu głośnikowi, lecz w zamian reprezentują one właściwości całego pola akustycznego. Dzięki temu nagranie zrealizowane w tej technologii może być odtwarzane w dowolnym układzie głośników. Docelowo w ambisonii istnieją dwa formaty pozwalające na zapis właściwości akustycznych: A-format pozyskiwany bezpośrednio z mikrofonu typu soundfield oraz B-format pozyskiwany przy użyciu enkoderów lub specjalnych ustawień mikrofonów pojemnościowych.

(fot. Piotr Kaźmierski)

W ambisonii wyróżniamy tzw. rzędy ambisoniczne, które charakteryzują wprost kierunkowość docelowego nagrania. Dla przykładu pierwszy rząd ambisonii (FOA - First Order Ambisonics) odpowiada nagraniom zrealizowanym przy pomocy jednego mikrofonu wszechkierunkowego oraz trzech mikrofonów o charakterystyce kierunkowości ósemkowej ustawionych odpowiednio zgodnie z osiami X, Y, Z. Odpowiada to rejestracji sześciu niezależnych planów dźwiękowych definiujących kierunkowość nagrania. Wyższe rzędy ambisonii pozwalają na bardziej szczegółową rejestrację dźwięku poprzez występowanie większej ilości „planów kierunkowych”. Przekładając to na B-format otrzymujemy 4-kanałowe nagranie, w którym pierwszy komponent definiuje amplitudę nagrania, zaś pozostałe trzy kanały właściwości kierunkowe.

W Poznańskim Centrum Superkomputerowo-Sieciowym w Laboratorium Nowych Mediów zbudowano instalację, która pozwala na usłyszenie dźwięku w perspektywie 360 stopni. Składa się z 24 niezależnych głośników, tworzących trzy pierścienie oktagonalne, znajdujące się na trzech różnych wysokościach. Głośniki umieszczone są w okręgu, a słuchacz powinien stać w jego centralnym punkcie, czyli w tzw. sweet spot, a więc miejscu, gdzie sfera ambisoniczna ma swoją największą efektywność. Dzięki temu może w pełni doznać dźwięku przestrzennego. Prezentowane brzmienie jest swoistą imitacją tego, w jaki sposób fala dźwiękowa rozchodzi się w przestrzeni naturalnego środowiska. Im więcej głośników znajduje się w docelowej instalacji, tym większa jest precyzja odwzorowania dźwięku. Zastosowanie 24 głośników jest więc idealnym kompromisem pomiędzy uzyskaną jakością odtwarzania, a stopniem skomplikowania instalacji.

(fot. Piotr Kaźmierski)

Do rejestracji dźwięku ambisonicznego używany jest specjalny mikrofon ambisoniczny, który złożony jest z czterech przetworników, czyli czterech małych mikrofonów, umieszczonych wobec siebie w specyficzny sposób – tak, aby każdy z nich rejestrował dźwięk z innego kierunku. W ramach projektu badawczo-naukowego Immersify Poznańskie Centrum Superkomputerowo-Sieciowe zarejestrowało serię eksperymentalnych nagrań ambisonicznych i wielokanałowej projekcji dźwięku. Jednym z nich było nagranie zespołu jazzowego Anomalia, którego członkami są studenci Akademii Muzycznej im. Ignacego Jana Paderewskiego w Poznaniu. Zarejestrowana treść audio została zmiksowana w sferycznej ambisonicznej przestrzeni w studio Laboratorium Nowych Mediów PCSS.

- Zespół Anomalia to jazzowy septet, w którym grają muzycy: perkusja, kontrabas, gitara, saksofon tenorowy, saksofon sopranowy, puzon i trąbka. Członków zespołu umieściliśmy w kręgu, choć nie staraliśmy się rozdzielać każdego z instrumentów. Chcieliśmy osiągnąć jak najbardziej przestrzenne i naturalne nagranie, dlatego użyto różnych typów mikrofonów – mówi Jan Skorupa, specjalista od dźwięku przestrzennego w Dziale Nowych Mediów w PCSS a także koordynator art&science w przestrzeni FutureLabs.

Oprócz nagrań dźwiękowych wyprodukowano także filmy 8K i VR/360°, aby zaprezentować występ Anomalii jako kompletne doświadczenie VR („VR experience”). Materiał audio został zakodowany jako ambisoniczny dźwięk trzeciego i piątego rzędu, a następnie dekodowany wielogłośnikowo. Aby udostępnić nagranie na portalu YouTube powstała jego dodatkowa wersja binauralna, aby ostatecznie połączyć dźwięk z wideo VR/360° i móc zaprezentować je szerszej publiczności. Wszystko to wymagało odpowiedniego przygotowania do produkcji i miksowaniu dźwięku przestrzennego dla projektu Immersify.

- Produkcję wykonaliśmy w przystosowanej do tego sali eventowej znajdującą się w PCSS. Miejsce zostało także w nastrojowy sposób oświetlone historycznymi lampami scenicznymi. Wszystko po to, aby widz miał wrażenie realnego uczestniczenia w koncercie na żywo. Zrealizowano dwa wideoklipy: jeden tradycyjny kamerą SONY F65, a drugi jako dodatek do dźwięku ambisonicznego został nagrany kamerą Insta360 Pro – dodaje Skorupa.

Koncert ambisoniczny

Kolejną okazją do współpracy był koncert Luxfest w lipcu 2019 roku, na którym PCSS zarejestrowało sesję audio VR i ambisonics. W tym przypadku, ze względu na brak możliwości zbudowania własnego zestawu mikrofonowego, nagranie musiało zostać oparte tylko na mikrofonie ambisonicznym i dźwięku uzyskanym z miksera realizatora dźwięku koncertu.

- Zależało nam na odtworzeniu pełnej scenicznej atmosfery, gdzie w połączeniu z filmowaniem VR/360° odbiorca miałby wrażenie, że znajduje się na żywo pomiędzy zespołem a publicznością. Mikrofon ambientowy wraz z kamerą 360° umieściliśmy na krawędzi sceny – tłumaczy Wojciech Raszewski z Działu Nowych Mediów PCSS, odpowiadający za realizację projektu. To ustawienie pozwoliło uniknąć umieszczania mikrofonu w układzie głównego systemu głośników. Najciekawsze efekty dźwięku przestrzennego osiągnięto podczas śpiewania piosenek przez publiczność.

Zanurzenie w dźwięku. Czy to przyszłość telewizji, kina i gier?

Często niedocenianą częścią filmów i materiałów wideo jest dźwięk, choć bez niego przekazywana treść jest niekompletna. Już od czasu wprowadzenia dźwięku do kina wiadomo, że jest on równie istotny przy odbiorze dzieła. Tym bardziej, immersyjne wideo wymaga specjalnego rodzaju udźwiękowienia, a na eksperymentowanie z nim decydują się zarówno producenci filmowi, jak i twórcy gier komputerowych, mających przecież w jak najlepszy sposób odwzorować rzeczywistość.

Intensywność doznań dźwiękowych zależy jednak od tego, jak dobrze potrafimy odtworzyć oryginalne pole akustyczne. Wyobraźmy sobie oglądanie wyciszonego meczu piłki nożnej. Dodanie dźwięków stadionu sprawia, że mamy wrażenie, iż rozgrywki odbywają się tuż za oknem. Co więcej, tego typu „udźwiękowienie” meczu wykorzystali organizatorzy rozgrywek sportowych podczas pandemii koronawirusa. Gdy stadiony były zamknięte, tekturowi kibice mieli „wspierać" swoje drużyny m.in. w NBA, czy w piłkarskiej Bundeslidze. W Polsce na zapełnienie trybun sztucznymi fanami zdecydowano się w Toruniu przy okazji halowych mistrzostw Europy w lekkoatletyce, które odbyły się w marcu 2021 roku. W wielu przypadkach zdecydowano się także na dodanie nagranych przed wybuchem pandemii COVID-19 dźwięków dopingu kibiców, aby dać sportowcom poczucie „normalności”, a widzom przed telewizorem choćby namiastkę doznań, które towarzyszą im na rozgrywkach.

(fot. Olga Ormańczyk)

Nawet najprostsze stereo może dawać wrażenie dźwięku dookólnego. Przy nagraniu ambisonicznym możliwa jest jego reprezentacja binauralna. Obuuszny dźwięk 3D oparty jest na funkcji HRTF (head-related-transfer-function), która odzwierciedla sposób, w jaki nasze uszy odbierają dźwięki z dowolnego punktu w danej przestrzeni. Dlatego jeśli zaimplementujemy tę funkcję do dekoderów dźwięku ambisonicznego, daje nam to możliwość stworzenia iluzji dźwięku przestrzennego w domenie binauralnej.

W przypadku gier komputerowych wykorzystujących okulary VR, słyszany w słuchawkach dźwięk nie pasowałby do tego, co widać, gdy obracamy głową. W tym celu znacznie lepiej sprawdza się nagranie ambisoniczne w formie binauralniej. Poza właściwościami przestrzennymi ta technologia pozwala na dynamiczne dekodowanie, czyli adaptację pola dźwiękowego do kierunku patrzenia.

Zobacz także test wideo:

Technics EAH-A800 - bezprzewodowe słuchawki z redukcją szumów

Wszystkim osobom dorastającym w latach 70. i 80. minionego wieku należąca do Panasonica marka Technics nieodmiennie kojarzy się z gramofonami oraz doskonałym sprzętem hi-fi.

W przypadku odsłuchu wielogłośnikowego kluczowym aspektem jest prawidłowe zdefiniowanie pozycji głośników w instalacji sferycznej względem jej środka. Na podstawie tych danych algorytm interpretuje stworzone bądź nagrane pole akustyczne i adaptuje je do konkretnego zestawu głośnikowego. W dzisiejszych czasach dźwięk 3D zyskuje na popularności, a w połączeniu z wideo o wysokiej rozdzielczości lub VR zapewnia złożone i bogate wrażenia. Wszelkie postępy w tym obszarze są niemal natychmiast wykorzystywane przez komercyjnych producentów treści związanych z rozrywką.

Nagrywanie pola dźwiękowego

Nagranie pola dźwiękowego w formie 360 stopni wymaga jednak specjalnego sprzętu. Prostym sposobem na uzyskanie ambisonicznego dźwięku jest użycie mikrofonu typu soundfield. Składa się z wysokiej jakości kapsuł mikrofonowych ułożonych z uwzględnieniem ich polaryzacji pod kątem i w kierunkach, które pozwalają pokryć całą sferę dźwiękową 360°. Ich pasmo przenoszenia i czułość również powinny być dokładnie dopasowane. Co więcej, dla dobrej kierunkowości wysokich częstotliwości, ze względu na przestrzenną rozdzielczość fal dźwiękowych, powinny one być upakowane naprawdę blisko siebie – najlepiej byłoby, gdyby znajdowały się w tym samym punkcie.

(fot. Olga Ormańczyk)

Większość mikrofonów ambisonicznych na rynku składa się z czterech niewielkich kapsuł o kardioidalnej charakterystyce przetworników, ułożonych w formie tetrahedronu. To doskonałe rozwiązanie do nagrywania dźwięków otoczenia – odgłosów ulicy, przyrody itp. Jednak przy nagrywaniu mowy nie możemy oczekiwać najwyższej jakości. O wiele lepiej jest nagrać aktorów mikrofonem kierunkowym, a następnie za sprawą oprogramowania enkodującego imitującego nagranie mikrofonem ambisonicznym dołączyć je do ogólnego planu tła. Za sprawą takiego rozwiązania w łatwy sposób pozyskuje się dużo większą kierunkowość oraz szczegółowość docelowego nagrania.

Projekt Immersify, czyli zanurzanie w wirtualnej rzeczywistości

Od jesieni 2017 r. projekt Immersify, finansowany przez Komisję Europejską w ramach programu Horyzont 2020, był realizowany przez pięciu partnerów: PCSS – Poznańskie Centrum Superkomputerowo-Sieciowe (Polska), Spin Digital Video Technologies GmbH (Niemcy), Marché du Film – Festival de Cannes (Francja), Visualization Center C (Szwecja) oraz Ars Electronica Futurelab (Austria) i skupiał się na obecnych i przyszłych wyzwaniach w dziedzinie mediów immersyjnych. Immersify w 2020 roku został zaprezentowany również w ramach Cannes XR Virtual – wydarzenia skupiającego się na produktach z zakresu technologii immersyjnych i odbywającego się w ramach Festiwalu w Cannes - Marché du Film. Oprócz specjalnie stworzonej przestrzeni VR, poprzez którą udostępniono prace imersyjne, zaprezentowano szereg zdalnych wystąpień dostępnych w formie strumieni wideo.

W ramach tego europejskiego projektu badawczego Dział Nowych Mediów PCSS zbudował instalację umożliwiającą nagranie dźwięku w formie 360° także poza labolatorium. Jedno z nich zostało wykonane w poznańskim budynku Okrąglak, który charakteryzuje się futurystyczną architekturą na planie koła. Zarejestrowany został zespół folk-rockowy Karambabula, a dźwięk uzupełniono o wizję z kamery 360°. Nagranie z dźwiękiem ambisonicznym można zobaczyć i odsłuchać w uproszczonej formie m.in. na portalu YouTube.

Inne eksperymentalne ambisoniczne nagranie połączone z VR to utwór zatytułowany „Szum i faktura”, kompozycja muzyki współczesnej Jana Skorupy w wykonaniu kwintetu smyczkowego. Zarejestrowany został na dachu jednego z budynków Poznańskiego Centrum Superkomputerowo-Sieciowego. Instalacja składająca się z 24 niezależnych głośników, które razem tworzą sferę, była także prezentowana na międzynarodowych konferencjach - Network Performing Arts Production Workshop w Pradze (Czechy) i TNC w Tallinie (Estonia). Odwiedzający mieli okazję stanąć w jej centrum, założyć gogle VR i wziąć udział w trzech różnych sesjach muzycznych – zespołu jazzowego Anomalia, kompozycji muzyki współczesnej oraz posłuchać nagrania z koncertu na żywo polskiego zespołu rockowego. Demo zachwyciło międzynarodowe grono odbiorców, a połączenie ambisonicznego dźwięku 3D i VR dało uczestnikom wyjątkowe, nieporównywalne wrażenia – zaangażowało zarówno zmysł słuchu, jak i wzroku.

- Spotkaliśmy się z dużym entuzjazmem, więc już nie możemy się doczekać kolejnej okazji, kiedy będziemy mogli podzielić się projektem z szerszą publicznością. Pracujemy obecnie nad czymś zupełnie wyjątkowym, co będzie nowością na polskim rynku słuchowisk i seriali podcastowych. Wystartowaliśmy także program rezydencji artystycznych związanych z dźwiękiem ambisonicznym i mamy nadzieję, że w niedalekiej przyszłości uda się zaangażować twórców do tworzenia swoich prac za pomocą tej technologii – mówi Maciej Głowiak, szef Działu Nowych Mediów w PCSS.