Headphone Surround 3D: "Entscheidend ist die Produktion"

Spezialist für Headphone Surround 3D: Tom Ammermann arbeitet als Toningenieur und Produzent bereits seit 1999 an 3D-Kopfhörer-Verfahren, erstellte 3D-Kopfhörer-Mischungen für zahlreiche Film-DVDs und Blu-ray-Discs, etwa für Mr. & Mrs. Smith, Gangs of New York, Traffic, Million Dollar Baby oder The Expendables 1 bis 3. In seinem Hamburger Studio arbeitete Ammermann zuletzt an einer 3D-Audio-Produktion der Kultgruppe Kraftwerk. Als 3D-Consultant hatte er dabei Kraftwerk-Mitglied Fritz Hilbert beraten. Im Interview beantwortet Ammermann Fragen zum Thema 3D-Audio und der räumlichen Kopfhörer-Stereofonie.

Sind Tonmeister in Sachen 3D-Audio nicht zu euphorisch?

Ja, man ist definitiv zu euphorisch. Man stellt sich solche Riesenanlagen wie diese hier hin. Und die klingen immer brutal gut (lacht). Wenn man das dann zuhause hört, verliert es dennoch meist nicht das Besondere. Die kleinen Home-Surround-Anlagen bringen das schon ganz gut rüber. Denn man muss sich an gewisse Spezifikationen halten, sonst bekommt man bestimmte Stempel nicht wie Dolby oder DTS. Dennoch haben relativ wenige Menschen zuhause eine Surround-Anlage, weil es ein großer Aufriss ist, das alles aufzustellen. Gerade die Damenwelt ist oftmals kein Fan davon.

Deshalb ist der Schritt zu dem, was wir heute Immersive oder 3D-Audio nennen, zumindest bislang leichter über Kopfhörer möglich gewesen. Und dennoch haben es wenige Menschen genutzt. Jedenfalls arbeite ich seit 16 Jahren an 3D-Audio-Kopfhörermischungen.

Tom Ammermann, Geschäftsführer von New Audio Technology

Wieso sollte 3D-Audio mehr Erfolg beim Endkunden haben als Surround?

3D-Audio oder Immersive Audio kann auf die Überzeugungsarbeit aufsetzen, die bereits für Surround geleistet wurde. Der Unterschied zwischen Surround und 3D-Audio ist ein wirklich einhüllendes Gefühl, das eine Lautsprecher-Aufstellung mit einer Höhenebene viel überzeugender vermitteln kann. Denn Surround ist nur zweidimensional – links, rechts, vorne, hinten. 3D-Audio kann die Räumlichkeit einer Filmszene besser unterstreichen. Durch 3D-Audio kann der Ton erstmals auch die Oben-Unten-Dimension abbilden und damit alle Ebenen des Films. Dadurch ist die emotionale Wirkung, und, wie ich es nenne, das emotionale Echo nach dem Film des Publikums bei 3D-Audio viel größer.

Mit dem Schritt zu 3D-Audio hat es die Industrie mittlerweile viel besser verstanden, das zu den Endkunden nach Hause zu bringen. Der erste Schritt sind Soundbars, die viel mehr leisten können, als es in der Vergangenheit der Fall war. Die Soundbars können mittlerweile wirklich ein einhüllendes oder Immersive-Erlebnis kreieren.

Ist das nicht ernüchternd: Erst ist von Surround oder 3D-Audio mit bis zu 22.2 Lautsprecher die Rede, und am Ende bleibt eine Soundbar?

Ja, aber es ist nicht die Soundbar, wie wir sie aus den letzten Jahren kennen. Es sind neue Soundbars, die mit neuen Möglichkeiten arbeiten. Ich muss sagen, dass ich die Soundbars erschreckend besser finde, als ich befürchtet hätte. Auch wenn man vielleicht zunächst die Nase rümpft. Zu den Soundbars sollte man sicherlich einen Subwoofer aufstellen – was meistens der Fall ist – und hinten zwei Surround-Lautsprecher, die noch mit sogenannten Upfiring-Speakers nach oben strahlen.

Die LG Signature OLED TV W-Serie ist mit einer 3D-Audio-Soundbar ausgestattet.

Wenn man guten Content hat, der dafür produziert ist, bekommt man ein einhüllendes Erlebnis. Es kommt auf die Audiomischung, also den Content an. Wenn der dafür produziert ist, erhält man ein einhüllendes Erlebnis. Man kann vielleicht nicht einzelne Audioquellen ganz scharf oben lokalisieren. Aber man nimmt schon mit Soundbars Geräusche von oben wahr, und man kann vor allem eine Räumlichkeit damit erzeugen. Räumlichkeit, die nicht irgendein Hall ist, sondern die einen beispielsweise mitten in den Urwald reinversetzt. Diese Soundbars gibt es von verschiedenen Herstellern. Dafür muss man kein Soundexperte sein. Wir brauchen etwas, was einen normalsterblichen Anwender überzeugt, aber dennoch einfach und unauffällig zu installieren ist. Und da machen sich Soundbars sehr gut.

Was sagen Sie zu der Formatdiskussion – Dolby Atmos, DTS:X oder MPEG-H? Und zu der Diskussion kanal- oder objektbasiert?

Für die Kunden zuhause ist es eine Katastrophe. Kein Mensch weiß, was er kaufen soll. Alle sagen, wir sind die Tollsten, und wir klingen am besten, und wir sind sowieso die Coolsten. 5.1 ist 5.1 gewesen – egal, ob DTS oder Dolby. Jetzt hat jeder sein eigenes Süppchen gekocht. Das ist ganz schön anstrengend für die Endkonsumenten und natürlich auch für die Produzenten. Denn wir werden von den Inhalteherstellern gefragt, welches Format sie nutzen sollen. Meine persönliche Auffassung ist: Das, was das Erlebnis wirklich verändert und für jeden sofort hörbar macht, ist die Qualität der Produktion. Wenn man kreativ mit den Lautsprechern arbeitet, wo auch immer sie oben hängen und völlig egal, ob das objektbasiert oder kanalbasiert ist, bestimmt am Ende Tages die Qualität der Produktion das emotionale Erlebnis. Bei Musik zuvor sicherlich auch noch die Qualität der Komposition.

Kraftwerk wird dieses Jahr ihr komplettes Repertoire auf einer Blu-ray-Disc veröffentlichen – 3D-Audio mit 3D-Bild. Hat man einen tollen Künstler wie Kraftwerk und mischt das in Dolby Atmos mit einem Produzenten wie Fritz Hilbert von Kraftwerk, der Erfahrung hat und auch Phantasie hat – das ist entscheidend. Die Kraftwerk Blu-ray ist in Dolby Atmos produziert, hätte aber auch in DTS oder Auro 3D umwerfend geklungen. Es ist relativ egal, ob die Lautsprecher an der Decke einen halben Meter weiter vorne oder hinten hängen. Und auch die Codierungsformate aller Hersteller sind so gut, dass kein Mensch wirklich einen Unterschied hören kann. Man könnte das codierte Verfahren mit hochaufgelöstem PCM vergleichen, und Sie würden keinen Unterschied hören.

Was war die Besonderheit der Kraftwerk-Produktion?

Zu der Produktion möchte ich noch nicht allzu viel sagen, da sie noch nicht veröffentlicht ist. Aber generell geht es nie darum, dass aus allen Lautsprechern immer etwas rauskommt. Man muss immer sehen, welches Ziel man erreichen möchte. Bei einer Klassik-Produktion wird das Orchester von vorne kommen, der Rest ist Hall oder eben der Konzertsaal. Das gilt auch für die meisten Konzerte, auch wenn es Rockkonzerte sind. Wenn man wiederum eine Pop-Produktion hat, und dann vielleicht noch eine Elektroband mit vielen unterschiedlichen Klängen, kann man mit so vielen Lautsprechern natürlich irrsinnig gut arbeiten. Damit lässt sich das in einer Größe darstellen, die man mit einem Stereo-Lautsprecherpaar nicht annähernd erreichen kann.

Auf der letzten Tonmeistertagung habe ich schon etwas aus der Kraftwerk-Produktion vorgespielt. Die ist wirklich spektakulär geworden, sie klingt einfach umwerfend. Diese Blu-ray hat auch eine Headphone-Surround 3D-Spur. Ich habe sie zur Abnahme durchgehört, und mir dabei das Bild auf meinem 3D-Fernseher angesehen. Obwohl ich die meisten fertigen Mischungen schon mal gehört habe, ist mir bei der fertigen Produktion mit 3D-Bild und -Ton wirklich die Kinnlade heruntergeklappt. So was beeindruckendes hab ich noch nie erlebt! Dank Headphone Suround 3D kann man das mit jedem beliebigen Kopfhörer erleben.

Mit dem Spatial Audio Designer lassen sich 3D-Kopfhörermischungen erstellen.

3D-Audio – die ewige Formatdiskussion

Warum haben Sie sich für das Dolby-Atmos-Format entschieden, und wie setzt sich eine Atmos-Mischung zusammen?

Weil Dolby Atmos schlicht der stärkste Partner am Markt ist. Wenn wir möglichst viele Leute damit beglücken wollen, haben wir mit Dolby den stärksten Partner. Würde man beispielsweise Auro 3D wählen, könnte man im Consumer Markt so gut wie niemanden erreichen. DTS:X schwimmt ein bisschen auf der Dolby-Welle mit, weil man keinen Verstärker ohne DTS bauen kann. Das heißt, man hat immer Atmos und DTS drin. Aber es gibt so gut wie keinen Content in DTS:X. Klanglich ist die Produktion in Dolby Atmos amtlich, da gibt es keine zwei Meinungen.

Atmos ist ein Hybrid-Format. Das heißt, man hat ein kanalbasiertes Bed, das bildet die untere Ebene mit 7.1-Kanälen. Es kann auch 5.1 sein, aber eigentlich ist 7.1 angedacht. Oben hat man zwei weitere Kanäle, die ebenfalls zum Bed gehören. Insgesamt erhält man dann ein Bed mit 9.1-Kanälen. Zusätzlich arbeitet man mit Audioobjekten. Ein Objekt ist zum Beispiel eine Stimme, ein Flugzeug oder ein Vogel. Die Objekte bewegen sich unabhängig vom Bed frei und vor allem diskret über die verfügbaren Lautsprecherkanäle, was wirklich ein Plus an Lokalisationsschärfe einzelner Objekte bedeutet. Die beiden oberen Bed-Kanäle nutzen entweder einen oder zwei Lautsprecher für die linke und rechte Seite. Die Objekte können je nach deren Bewegung über jeden einzelnen Lautsprecher laufen – je nach der tatsächlichen Lautsprecheraufstellung zuhause.

Dolby Atmos ist auch abwärtskompatibel. Hat man einen neuen Atmos-Verstärker aber noch eine ‚alte’ Surround-Lautsprecheranordnung, rendert der Receiver das automatisch auf das Format. Die Rendering-Unit von Dolby, die drüben in unserem Aufnahmeraum liegt, macht den gleichen Downmix wie die Anlage zuhause. Bevor man eine 3D-Mischung aber über ein Stereo-Lautsprecherpaar hört, würde ich empfehlen, die Headphone Surround 3D-Kopfhörerspur anzuhören – das ist ein deutlich beeindruckenderes Erlebnis.

Noch mal zum Verständnis: Bei Atmos gehören die beiden oberen Kanäle zum Bed, das kanalbasiert ist?

Das Bed umfasst 9.1-Kanäle. Die beiden oberen Kanäle sind Teil des Beds. Bevor etwas zum Bed oder zum Objekt wird, ist man immer mit Objekten unterwegs. Das ist auch bei Stereo so. Man hat die einzelnen Instrumente wie Gitarre, Bassdrum, Snare, Hi Hat auf seinem Mischpult liegen, und dann spielt man sie über den Stereobus raus. Man mischt also die einzelnen Objekte mit Panning auf die Stereosumme. Bis zu dem Punkt arbeitet man mit Objekten – das war immer schon so.

Aber man nennt es Kanal?

Nein, es ist ein Objekt. Per Definition sind Gitarre, Snaredrum, Gesang usw. ein Objekt. Wenn es im Stereobus zusammengemischt und darüber abgehört wird, wird die Mischung der Objekte zu zwei Kanälen. Wenn man eine 9.1-Mischung macht, arbeitet man auch mit Objekten. Wenn man die ins Bed reinmischt, sind die fixiert und kommen immer aus dem Lautsprecher, auf den man sie gemischt hat. Ein Objekt, das nicht ins Bed gemischt wird, kommt immer aus dem Lautsprecher raus, der seiner Position im Mix am nächsten steht. Die Objekte passen sich also an das tatsächliche Lautsprecher-Setup an. Sie werden in Echtzeit auf das verfügbare Lautsprechersystem gemischt. Das macht Objekt basierte Formate so interessant, vor Ort bei den Menschen zuhause wird der Mix dem verfügbaren Lautsprechersystem angepasst.

Manche Sachen möchte man aber sicher auf einem Kanal wissen. Wie eine Bassdrum, die immer aus dem Center und dem Basslautsprecher kommen soll – egal, wie diese Lautsprecher stehen. Dafür ist das Bed gedacht – die Basis, auf der alles aufbaut. Die Objekte sind mehr die Feinheiten und Akzente, die z. B. für Effekte genutzt werden. Was man als Objekt definiert, ist eine inhaltliche Entscheidung des Produzenten.

Herr van Baelen von Auro 3D hatte in einem Interview einmal kritisiert, dass reine Objekte keine Raum-Simulation beinhalten.

Nein, das ist kein Problem. Man kann seine Hall-Returns auch als statische Objekte oder auch Teil des Beds einbinden. Das macht insofern keinen entscheidenden Unterschied.

Binaural Audio – oder Headphone Surround 3D

Mit der Demo (Klick aufs Bild) lässt sich Headphone Surround 3D mit herkömmlichem Stereo vergleichen.

Lange bevor die 3D-Audio-Diskussion eine breitere Öffentlichkeit erreicht hat, haben Sie mit 3D-Audio-Kopfhörermischungen gearbeitet. Wie kam es dazu – das ist ja mit Virtual Reality wieder ein ganz aktuelles Thema geworden?

Der große Vorteil bei 3D-Audio und Immersive ist, dass es gerade zufällig mit VR zusammenkommt. Durch VR wird Kopfhörer-3D-Audio – man könnte fast sagen – gesellschaftsfähig. Sicherlich auch weil die Kommunikation in Richtung Konsument sehr forciert wird. Letztlich mache ich das seit 16 Jahren. Der Unterschied von VR zu dem, was ich die ganze Zeit mache, ist das Head Tracking und somit eine Interaktivität, was nicht immer, aber schon häufig Teil von VR Anwendungen ist. Head Tracking sorgt dafür, dass sich auch das Audio bei der Kopfbewegungen nicht mitbewegt also raumstabil (Room Locked) bleibt, also wie im wahren Leben. Dreht man den Kopf da nach links, hört man z.B. jemanden der vor einem spricht nun von rechts. Musik hingegen ist auch bei interaktiven VR-Anwendungen statisch gewünscht, soll also Head locked sein und das ist das was wir auch schon machen und zwar auf einem extrem hohen Niveau.

Wie kamen Sie da bereits vor 16 Jahren darauf?

Ich hab’s gehört. Ich war 1999 auf der AES in Paris. Da hat Studer zusammen mit dem IRT (Institut für Rundfunktechnik, d. Red.) eine Demonstration gemacht. Die hatten auch schon Head Tracking. Ich war völlig begeistert von dem Klang. Zu der Zeit hatte ich auch Dolby Headphone gehört, die da gerade angefangen hatten. Dolby hatte ein Patent von Lake Technology gekauft, die eigentlich von der australischen Architekturbranche kamen. Die wollten die Raumakustik für den Bau simulieren. Klanglich kam das aber bei weitem nicht an die Studer- und IRT-Demo heran.

Als ich die Demonstration von Studer und dem IRT gehört habe, war ich überzeugt, dass das die Zukunft ist. Das bewahrheitet sich jetzt 17 Jahre später. Schade, dass es so lange gedauert hat. Aber durch VR-Audio bekommt das Thema sehr viel Schwung. Bei VR hat man stets einen Kopfhörer auf und man braucht einen virtualisierten Ton, sonst hat man eine Diskrepanz zwischen dem dreidimensionalen Bilderlebnis und dem Ton. Das Erlebnis ist doppelt so gut, wenn der Ton dazu stimmt und auch realistisch klingt.

Was ist der Unterschied zwischen Kunstkopfstereofonie und dem Begriff Binaural Audio, der offenbar die 3D-Audiowiedergabe über einen Kopfhörer bezeichnet?

Kunstkopfstereophonie ist ein Verfahren, mit dem man binaurales Audio aufnimmt. Es gehört letztendlich also zusammen. Wir reden davon, natürliches Hören zu simulieren. Das heißt, wir simulieren wie ein Audioobjekt im Raum um uns herum lokalisiert wird. Wenn man dann einen Kopfhörer aufsetzt, hört man jemand, der von da oben spricht, auch aus dieser Richtung – und nimmt die Stimme nicht im Kopf wahr. Diese Stimme wird also virtuell dort oben wahrgenommen, wo sie real nicht ist. Ich nenne binaural Audio daher eine Virtualisierung.

Wir nutzen dafür die Psychoakustik, die unser Gehirn auch in der Realität verwendet. Wir machen ganz genau das Gleiche. Denn egal, wie viele Lautsprecher man um sich herum aufstellt: Am Ende summieren sich alle Signale an den Ohren zu zwei Signalen. Der eine Teil summiert sich am linken, der andere am rechten Ohr. Die beiden Summen klingen etwas unterschiedlich. Das Gehirn wertet diesen leichten jedoch Charakteristischen Unterschiede in der Stereosumme aus und kann somit Audiosignale in unserem Umfeld lokalisieren und die Räumlichkeit in der wir uns befinden detektieren..

Wir machen genau das Gleiche. Wir verwenden ein Audioobjekt, machen die Virtualisierung und erzeugen damit zwei unterschiedliche Signale für das linke und rechte Ohr. Das heißt, es muss mit zwei Kanälen gehen – denn in der Realität ist das auch nicht anders. Auf einem Ohr spielen wir das Objekt etwas lauter, früher und mit etwas mehr Höhen ab, als auf dem anderen Ohr – um es grob zu sagen. Damit sagt unser Gehirn: Aha, das kommt von dort. Das nennt man landläufig binaural Audio. Ich finde den Begriff schlecht, denn binaural heißt nichts anders als zweiohrig (mit beiden Ohren, d. Red.), das ist ‚normales’ Stereohören mit Kopfhörern auch. Dreidimensionales Hören in der Realität ist schon binaural, denn wir hören ja mit zwei Ohren, daher hat sich vermutlich auch eingebürgert, dafür binaural Audio zu sagen, aber letztendlich geht es um realistisches Hören wofür besagte Parameter wichtig sind und das bilden wir virtuell nach, es sind also Virtualisierungen.

Wie genau lassen sich diese Virtualisierungen erstellen?

Es gibt verschiedene Verfahren um diese Simulation herzustellen. Kunstkopfstereofonie ist wie gesagt auch binaural Audio also auch eine Virtualisierung. Denn durch seine Kopfform prägt er die Signale jedes Kanals – mit reiner Aufnahmetechnik. Prägen im Sinne von verändern. Der Fachbegriff für die Psychoakustik, die da dahinter steckt, ist HRTF – Head Related Transfer Functions, also kopfbezogene Übertragungsfunktionen. Das ist nichts weiter als die Psychoakustik, die unser Gehirn verwendet, um Audiosignale in unserem Umfeld zu lokalisieren und den Raum zu detektieren. Der große Unterschied zwischen den vielen, vielen Simulationen, die es gibt, ist die Qualität. Die große Kunst ist, hochwertige und generische HRTFs zu generieren, die also bei sehr vielen Menschen überzeugend funktionieren. Da gibt es sehr viele Verfahren. Die von uns entwickelte Virtualisierung, die zum Beispiel im Spatial Audio Designer verwendet wird, gehört in jedem Fall zu den hochwertigsten Verfahren im Markt.

Aber was ist der Unterschied zwischen einer 3D-Audio-Kopfhörermischung und Zweikanal-Stereo – am Ende sind es doch nur zwei Signale?

Das ist häufig so, dass die Leute sagen – come on, am Ende des Tages ist das doch Stereo. Darauf gibt es eine einfache Antwort: Denn egal, wie viele Lautsprecher Sie um sich herum aufstellen, Ihr Gehirn verwertet exakt zwei Signale, zwei Informationen. An den beiden Ohren trifft am Ende die Summe aller Signale auf. Auch die Signale eines realen Lautsprechersystems mit hundert Lautsprechern werden in den Ohren zu zwei Signalen summiert. Unser Gehirn verwertet also am Ende nur eine Stereosumme. Das muss also irgendwie auch mit Kopfhörern gehen!

Und wir machen genau das gleiche. Wir nehmen ein Audioobjekt, machen die Virtualisierung und schicken die Signale auf die beiden Ohren, nehmen ein anderes Objekt und schicken entsprechend etwas andere Signale zu den beiden Ohren. Wir arbeiten hier in diesem Fall mit Lautsprecherkanälen, die wir summieren und in Stereo zusammenführen, sodass sie für das Gehirn exakt so klingen, als würden sie über Lautsprecher wiedergegeben.

Das Erstaunliche ist, dass diese HRTFs entscheidend für das Ergebnis sind. Manche empfehlen individuelle HRTFs zu verwenden, die genau zu der Ohr- und Kopfform des jeweiligen Hörers passen. Wie realisieren Sie Ihre Virtualisierung?

Wir verwenden unsere eigenen HRTFs. Seit 15 Jahren mache ich diese Kopfhörer-Virtualisierungen und seit acht Jahren entwickle ich Software für Virtualisierungen. Diese Software (Spatial Audio Designer, d. Red.) können auch andere Produzenten nutzen. Da sind die von uns selbst entwickelten HRTFs drin. Vorher habe ich das mit einem großen Gerätepark erzeugt.

Stichwort Individualisierung: Es ist mittlerweile endlich soweit, dass sogar die Wissenschaftler verstanden haben, die immer gesagt haben – ja, individuell, muss alles eigens gemessen werden – dass es auch anders geht. Wir haben eine generische Methode entwickelt. Unsere generischen HRTFs funktionieren für mindestens 75, eher 85 Prozent der Menschen wirklich gut. Dann braucht man noch ein paar Parameter, damit das jeder für sich ein bisschen Individualisieren kann. Endlich diskutieren auch sogenannte Fachleute öffentlich, dass man vierzig, fünfzig verschiedene Gehörgänge messen kann, aber die große Mehrheit der Hörer letztendlich von einer großen Zahl an HRTF-Kurven nur vier bis sieben auswählen. Mit vier bis sieben HRTFs, die sozusagen einfach den Nerv treffen, lassen sich also bei der Mehrheit der Hörer die besten Ergebnisse erzielen. Die Qualität der HRTFs liegt also weniger an der Individualisierung, sondern man muss einige andere psychoakustischen Tricks beherrschen.

Wir bieten zudem Parameter an, die sehr geschmacksspezifisch sind. Wir virtualisieren zum Beispiel Lautsprecher. Man kann also mit einer virtuellen 5.1-Lautsprecher-Aufstellung arbeiten oder mit Stereo oder 9.1 oder 22.2. Das ist großartig, man kann eine Mischung einfach über ein virtuelles Lautsprechersystem abspielen und ist total unabhängig. Wir messen diese Lautsprecher in dem Raum, in dem sie installiert und eingemessen sind. Wir schließen also eine virtuelle Raumakustik mit ein. Der Hörer kann mit unserer Anwendung selbst einstellen, ob er mehr oder weniger Raumreflektionen hören möchte. Und alles, was man letztendlich braucht um es zu erleben, ist ein handelsüblicher Kopfhörer.

Die Software Spatial Sound Card ermöglicht Headphone Surround 3D an jedem PC – mit jedem Kopfhörer.

Unsere Software Spatial Sound Card gibt es ganz neu auch auf Steam. Das ist unsere Virtualisierung für Endkunden, die von der Pro Version abgeleitet ist. Sie ermöglicht nur fünf Virtualisierungen. Denn nach den Rückmeldungen wollen unsere Kunden gar nicht mehr. Die Spatial Sound Card dient am PC oder Mac als Standard-Audiodevice. Darüber können Sie dann alles abspielen – egal, ob das eine CD, Netflix oder eine DVD oder auch ein Game mit 5.1 Sound ist – und auf einem handelsüblichen Kopfhörer sofort in 3D-Audio erleben. Und selbst Netflix oder eine CD klingt über virtuelle Studiolautsprecher gehört doppelt so gut, als wenn Sie das ohne abspielen. Diese Consumer-Anwendung gibt es aktuell für 9,99 Euro bei Steam. Die Reviews sind umwerfend.

Headphone Surround 3D und Ambisonic

Welche Vorteile bietet das Ambisonic-Verfahren für Kopfhörer-3D-Audio?

Es ist eher so, dass viele VR-Leute und allen voran die Google-Leute Ambisonic gekapert haben. Das Ambisonic-Verfahren hat nämlich zwei Vorteile: Es ist nicht geschützt und kostet daher nichts. Zum anderen ist es relativ flexibel. Man kann aus acht vier Kanäle machen. Damit lässt es sich schneller zum Kunden bringen, weil es weniger Daten benötigt. Und man kann in Echtzeit mit relativ wenig Rechenaufwand Interaktivität reinbringen. Der Ambisonic-Decoder ist im Plug-In von Google drin. Wenn man damit vier Kanäle Ambisonics abspielt, mappt es der Decoder in Echtzeit auf acht Kanäle und virtualisiert es dann. Mit den entsprechenden Tracking-Daten von der Brille kann man tatsächlich den Kopf drehen und das Schallfeld bewegt sich mit.

Allerdings ist es so, dass dieses sogenannte First Order Ambisonics, also das kleinste, was es gibt, nicht besonders gut klingt und auch in der Lokalisation sehr blurry, also unscharf ist. Es reicht aber völlig für diesen Wow-Effekt, dass eine Schallquelle wie im wahren Leben raumstabil bleibt (room lockt), auch wenn man den Kopf mitbewegt. Google verwendet jedoch leider keine besonders hochwertigen HRTFs, wie ich zumindest finde.

Ambisonic alleine reicht also für eine dreidimensionale Kopfhörerwiedergabe nicht – da kommen wieder die HRTFs ins Spiel?

Absolut. Wenn man über Kopfhörer-Surround beziehungsweise -3D spricht, spricht man immer, immer, immer über HRTFs. Es geht gar nicht anders. Das ist Psychoakustik, und die gilt für alle.

Wozu dient dann Ambisonic?

Man muss ja erst einmal ein Ausgangsformat haben, das mindestens zweidimensional ist, also Surround, mindestens 4.0, um Räumlichkeit zu reproduzieren. Und dazu dient Ambisonic. Ambisonic-Aufnahmen höherer Ordnung (HOA) erzielen eine bessere Auflösung. Dafür gibt es das beispielsweise das Eigenmike (von MH Acoustics, d. Red.). Ambisonic basiert auf einem koinzidenten Aufnahmeverfahren.

Man muss ehrlich sagen, dass alle Audioprofis, wenn es irgend geht, Mikrofon-Aufstellungen mit Laufzeit verwenden. Ohne Laufzeit ist alles Mathematik und am Ende des Tages meiner Erfahrung nach nichts, wo sich die Nackenhaare aufstellen. Das hören die Ambisonic-Fans nicht so gerne. Die kriegen ja auch schon gute Ergebnisse damit hin. Doch am Ende erzielen Aufnahmen mit einem anständigen Surround- oder 3D-Mikrofon-Array, das von einem erfahrenen Tonmeister oder Ingenieur gut konzipiert und gut aufgestellt ist, für gewöhnlich bei den Zuhörern einen weit größeren Effekt.

Die kompakte Größe ist natürlich wiederum ein Riesenvorteil der koinzidenten Ambisonic-Mikrofone: Man kann sie überall aufstellen. Ein anständiges Mikrofonarray, das eine Seitenlänge von, sagen wir, mindestens einem Meter hat, kann man an vielen Stellen nicht mehr einsetzen. Mit einem Soundfield- oder Eigenmike-Mikrofon kommt man dagegen überall hin. Allerdings müssen die Aufnahmerecorder, beispielsweise für das Sennheiser Ambeo VR, nicht nur vier Kanäle aufzeichnen können, sondern auch viermal Phantomspeisung liefern. Das schränkte in der Vergangenheit die Arbeit noch etwas ein. Doch mittlerweile gibt es echt gute und kostengünstige Fieldrekorder, die das bravourös meistern.

Das Sennheiser Ambeo VR Mic (rund 1.500 Euro) basiert auf dem Ambisonic-Prinzip

Ist Ambisonic also für VR-Produktionen doch besser geeignet?

Generell benötigt man für VR nicht zwingend Ambisonic. Jede gute 3D-Audioaufnahme lässt sich für VR nehmen. Dreidimensionales Audio auf einem Kopfhörer ist im Grunde schon VR. Und das mache ich ja schon seit 15 Jahren. Der einzige Unterschied zu den aktuellen Anwendungen ist die Interaktivität, also das Head Tracking. Aber selbst bei einer umfangreichen 5.1-Mischung mit Musik und vielen einzelnen Geräuschen, würde man nicht jedes Signal mitbewegen wollen. Man würde die Musik eher festnageln, also Head-Locken, und die Position einzelner im Bild sichtbarer Schallquellen entsprechend der Kopfbewegung ändern, also Room-Locken. Somit ist Ambisonic eine schlanke und vor allem kostenlose Variante, aber sicher nicht die einzige, schon gar nicht, wenn es um die Qualität des Sounds geht.

Hat Ambisonic aber als Zulieferungsformat für VR Vorteile?

Außer, dass es nichts kostet und sich relativ leicht ausliefern lässt, sehe ich nicht unbedingt Vorteile. Aber der Klang von Ambisonic, vor allem First Order, ist nicht so hochwertig. Gehen wir einen Schritt weiter, und verwenden eine höhere Ordnung, ist es auch vorbei mit der niedrigen Datenrate: Für Second Order benötigt man schon acht Kanäle. Und für Third Order sind es bereits 16 Kanäle.

Für Streaming sollte man sehen, wie viele Leute tatsächlich ein passendes Device zuhause haben. Wenn man ein Konzert miterleben will, frage ich mich, ob Room-Locked wirklich Sinn macht, gerade mit Ambisonic. Oder ob ich nicht lieber einen optimalen Klang haben möchte. Eine rein virtuelle 3D-Kopfhörermischung aus dem Studio oder Ü-Wagen vor Ort ließe sich über zwei Kanäle senden. Damit lässt sich zwar kein Head-Tracking-System und Interaktivät einbinden. Aber man kann zum Beispiel direkt vor der Bühne in der ersten Reihe im Konzertsaal sitzen. Es ist doch viel cooler, wenn der Sound fantastisch plastisch und realistisch klingt, als wenn ich das einer Interaktivität opfere, die hier doch keine wirkliche Relevanz und somit Spaßfaktor hat, oder?