MPEG-H - ein Audioformat der nächsten Generation (NGA)

Das Fraunhofer IIS (Institut für Integrierte Schaltungen) in Erlangen zählt spätestens seit dem Audiocodec MP3 (MPEG-1 Audio Layer 3) zu den bekanntesten Forschungseinrichtungen im Bereich Medientechnik. Die jüngste Entwicklung des Instituts ist das sogenannte Next Gen Audio (NGA)-Format MPEG-H. Was verbirgt sich hinter dem Verfahren? Ein Interview mit Stefan Meltzer, verantwortlich für die Markteinführung von MPEG-H, soll Klarheit bringen.

MPEG-H wurde erstmals im Februar 2015 als ISO/IEC-Norm standardisiert. Nach einem Vorschlag der DVB-Organisation wurde MPEG-H im Frühjahr 2017 als Audioverfahren für das UHD-Fernsehen der Phase 2 spezifiziert. Ebenfalls im März dieses Jahres wurde MPEG-H offzieller Teil des US-UHD-TV-Fernsehstandards ATSC 3.0. Neben dem Dolby-Verfahren AC-4 gilt die Fraunhofer-Entwicklung als Audioverfahren der nächsten Generation. Doch was bedeutet das genau, und welche technischen Details machen MPEG-H zu einem Audioformat der nächsten Generation? Stefan Meltzer, am Fraunhofer IIS für die Markteinführung von MPEG-H zuständig, hat einige Fragen zu MPEG-H beantwortet.

MPEG-H wird als Next Generation Audio bezeichnet, also als Audiofomat der nächsten Generation. Was unterscheidet es von bisherigen Audioformaten?

Stefan Meltzer. Fraunhofer IIS Meltzer: Als Audioformat der nächsten Generation (NGA) geht MPEG-H über reine Wiedergabeverfahren wie DTS:X und Dolby Atmos hinaus. Es ist ein komplettes System mit einem effizienten Codierverfahren und einem Renderer für die Wiedergabe, das für Rundfunk- als auch für Streaming-Anwendungen eingesetzt werden kann. Daher wurde MPEG-H beispielsweise auch für die Audioübertragung des neuen koreanischen terrestrischen UHD TV-Systems nach dem ATSC 3.0-Standard gewählt, der Ende Mai 2017 startet.

Welche Vorteile bietet MPEG-H?

MPEG-H erlaubt deutlich mehr Interaktivität als Dolby Atmos. So kann der Zuhörer beispielsweise die Wiedergabelautstärke eines Sport-Kommentators einstellen und damit das Verhältnis von Kommentar zu Hintergrundgeräuschen verändern. Darüber hinaus bietet MPEG-H die Möglichkeit des sogenannten Dialogue Enhancements. Das ist gerade für Menschen mit eingeschränktem Hörvermögen sehr nützlich. Diese können beispielsweise einen Nachrichtensprecher oder die Dialoge eines Spielfilms lauter stellen, ohne zugleich die Hintergrundgeräusche anzuheben. Damit müssen TV-Geräte nicht mehr extrem laut gestellt werden, um Sprache zu verstehen.

Aber auch für Mobilgeräte ist das Dialogue Enhancement hilfreich. Wird ein Programm beispielsweise in lauter Umgebung gehört, lässt sich die Verständlichkeit deutlich verbessern, wenn nur die Dialoge lauter eingestellt werden. Auch bei fremdsprachigen Programmen, etwa einer Original-Filmfassung, verbessert ein erhöhter Dialogpegel die Verständlichkeit. Hier gibt es beispielsweise die Empfehlung, den Dialog um drei Dezibel anzuheben.

Wie müssen die TV-Sender künftig dafür produzieren?

Meltzer: Der TV-Sender liefert zusätzlich zu einer beispielsweise kanalbasierten Mischung der Atmosphäre getrennte Audioobjekte wie Kommentatorenton, Umgebungsgeräusche oder verschiedene Sprachversionen die anhand von Metadaten erst beim Empfänger zu einem gemeinsamen Signal zusammengemischt werden. Die einzelnen Audioobjekte können dabei auf der Empfängerseite, beispielsweise in der Lautstärke individuell angepasst werden.

Welche audiotechnischen Verfahren nutzt MPEG-H dafür?

Meltzer: MPEG-H unterstützt, Kanäle, Audioobjekte und Ambisonics. Das beinhaltet

die kanalbasierte Audioübertragung von bis zu 128 Kanälen. Für den Heimbereich halten wir eine Beschränkung auf 7.1+4 oder 5.1+4 Höhenkanäle für sinnvoll. Innerhalb dieser Grenzen wurde MPEG-H auch in DVB und ATSC spezifiziert. Im japanischen Markt werden bis zu 22.2 Kanälen unterstützt.
Die Übertragung von bis zu 128 Audioobjekten.
Die Übertragung von Ambisonics-Formaten höherer Ordnung (Higher Order Ambisonics, kurz HOA). MPEG-H beinhaltet HOA bis zur 29. Ordnung. In der Praxis wird für VR maximal die 3. Ordnung verwendet.

Wie sind bei MPEG-H die Kanäle und Objekte auf die untere und obere Ebene verteilt?

Im Gegensatz zu anderen Wiedergabeverfahren gibt es bei MPEG-H grundsätzlich keine Beschränkung der Kanäle oder Objekte für die untere oder obere Wiedergabeebene. Für den Heimbereich unterstützt MPEG-H bis zu 22.2 Audiokanäle. Für ATSC 3.0 sowie für DVB sind jedoch maximal zwölf Lautsprecher für die Wiedergabe vorgesehen, sodass die Übertragung beispielsweise auf die Aufstellungen 5.1.2 oder 7.1.4 beschränkt ist.

Grundsätzlich ist die MPEG-H-Übertragung nicht an eine bestimmte Lautsprecher-Aufstellung gebunden. Vielmehr passt der Renderer die Audiowiedergabe an die jeweils vorhandene Aufstellung an. Dies ist der Vorteil der getrennten Übertragung von Kanälen und Objekten: Dass die finale Mischung beim Empfänger zusammensetzt wird. So lassen sich beim Zuhörer beste Ergebnisse erzielen.

Mit MPEG-H kann der Zuschauer selbst die Lautstärke-Verhältnisse regulieren. Fotocredit: Boxler-Schilling

Bietet MPEG-H auch einen Upmixer?

Nein, der MPEG-H-Standard beinhaltet keinen Upmixer. Wir möchten es den Herstellern überlassen eigene Upmixer zu entwerfen. Große Hersteller wie Sony oder Samsung bevorzugen das. Sie können sich dadurch von den Mitbewerbern unterscheiden.

Viele Heimanwender scheuen umfangreiche Lautsprecheraufstellungen. Welche Lösungen bietet MPEG-H?

MPEG-H kann auch über Soundbars mit Upfiring Speakers wiedergegeben werden. Auch wir haben ein Referenzdesign für eine 3D-Soundbar entwickelt und auf der CES 2017 vorgestellt. Die Präsentationen mit der Soundbar zeigen, dass einhüllender 3D-Sound auch einfach ins Wohnzimmer gebracht werden kann. So konnten wir die koreanischen Broadcaster überzeugen, dass es sinnvoll ist Inhalte mit 3D-Audio zu produzieren.

Mit welchem Kompressionsverhältnis arbeitet MPEG-H?

Im Vergleich zu einem unkomprimierten 22.2-Signal benötigt eine MPEG-H-Datei in transparenter Qualität nur noch ein 21.-tel der ursprünglichen Datenmenge. In sehr guter Broadcast-Qualität reduziert sich die Datenmenge auf ein 33.-tel. Als transparent bezeichnen wir die Audioqualität eines Kompressionsverfahrens dann, wenn sogenannte goldene Ohren keinen Unterschied zur Originalqualität feststellen können.

Fraunhofer Cingo nutzt einen verbesserten Renderer für die 3D-Kopfhörer-Wiedergabe. Fotocredit: Hartfiel

Inwieweit eignet sich MPEG-H auch für die räumliche Kopfhörerwiedergabe, die aktuell für 360 Grad Virtual Reality-Anwendungen ein Comeback erlebt?

Gerade Ambisonics-Audioformate höherer Ordnung eignen sich ideal, um ein dreidimensionales Schallfeld entsprechend der Kopfbewegung mitzuführen. Die Ausrichtung des Schallfelds wird von einem sogenannten Renderer berechnet, der auch Teil des MPEG-H-Systems ist. Der Renderer bekommt die Audiosignale sowie die Bewegungs- und Positionsdaten des jeweiligen Head-Tracking-Systems angeliefert und berechnet daraus die beiden Audiokanäle für die dreidimensionale Kopfhörerwiedergabe. So lässt sich das Schallfeld entsprechend der Kopfbewegung mitführen. Einzelne Audioobjekte fügt der Renderer wiederum passend zur jeweiligen Kopfposition in das Schallfeld ein. Mit Cingo hat Fraunhofer einen neueren Renderer für VR-Headsets entwickelt, der, wie wir glauben, den MPEG-H-Standard-Renderer klanglich noch übertrifft.

Wie lassen sich die Kopfbewegungen erfassen?

Die Kopfbewegungen lassen sich mittels verschiedener Head-Tracking-Verfahren erfassen. Renderer für binaurales 3D-Audio können meist die Daten mehrerer Head-Tracking-Systeme auswerten: Bei einem Google Cardboard stehen beispielsweise allein die Daten des Gyrosensors des Smartphones zur Verfügung, aufwendigere Headsets sind mit eingebauten Sensoren ausgestattet, bei VR-Brillen wie der HTC Vive können die Positionsdaten von externen Sensoren hinzukommen.

Vielen Dank.