Wenn Maschinen schreiben lernen

Mediatheken verschlagworten, Audiobeiträge nach Stichwörtern durchforsten oder gar Roboterjournalismus – die Anwendungen von Machine Learning, Deep Learning oder künstlicher Intelligenz (KI) in den Medien scheinen vielfältig. Ein Symposium des IRT und der ARD-ZDF-Medienakademie zeigte verschiedene Möglichkeiten auf.

Ein spannendes Thema, das ihr zugleich ein wenig Angst bereite – behutsam führte Sabine Dahl, Reporterin bei rbb Inforadio und Moderatorin in die Veranstaltung ein. Bei vielen Anwendungen stehen nach wie vor Algorithmen im Vordergrund, die der Programmierer vorgibt, die Maschine stumpf befolgt. Bei großen Datenmengen, wie sie beispielsweise Online-Dienste über deren Besucher sammeln, stoßen althergebrachte Rechenalgorithmen jedoch an ihre Grenzen. Zudem sind es Foto-, Video- und Audiodateien, die sich mittels selbstlernenden Algorithmen katalogisieren lassen und natürlich Empfehlungssysteme – die sich auf die Nutzer oder Zuschauer einstellen und daher lernfähig sein müssen.

Alan Turings schlaue Maschine

Doch was bezeichnet künstliche Intelligenz eigentlich genau? Für Thomas Ross, IBM Global Business Services, ist KI ein Jahrhundertthema, das keineswegs in den nächsten fünf oder zehn Jahren Realität werde. Dabei, so Ross, ginge KI auf den englischen Mathematiker Allen Turing und die nach ihm benannte Turing-Maschine zurück. Turing, der die deutsche Chiffriermaschine Enigma knackte, sei ein Wegbereiter der modernen Informatik.

Künstliche Intelligenz definierte Ross nach Turing wie folgt: Unterhalte sich ein Mensch mit einer intelligenten Maschine, die beispielsweise in einer Black-Box steckt, könne er diese nicht mehr von einem Menschen unterscheiden. Allerdings gebe es heute kein System, das dies zu leisten vermag. Das würde dauern, und vielleicht sei dies auch gar nicht das Ziel.

Der Einsatz von KI erscheint gerade im Zusammenhang mit großen Datenmengen notwendig. Die immensen Nutzerdaten, die Online-Dienste über deren Besucher sammeln, sind in großen Teilen unstrukturiert. Das bedeutet, sie sind nicht fein säuberlich geordnet und mit Metadaten versehen, lassen sich also nicht ohne weiteres systematisch durchforsten. Daher, so Ross, sei es technisch äußerst schwierig, „den eigentlichen Schatz zu heben“. IBM erkannte jedenfalls vor über einem Jahrzehnt die Bedeutung unstrukturierter Daten und startete 2007 ein Projekt, um diese zu erschließen.

Prognosen aus sozialen Netzwerken

Mit entsprechender Bearbeitung lassen aus unstrukturierten Daten wie Tweets dann beispielsweise Grippewellen vorhersagen. Auch für Klaus Illgner-Fehns, Geschäftsführung des Instituts für Rundfunktechnik (IRT), könne KI dazu dienen, Vorhersagen über Menschen zu treffen. Etwa, wie diese auf bestimmte Dinge reagieren. Stefan Hanke von der ARD-ZDF-Medienakademie erwähnte, Facebook bewerte Posts mittels KI beispielsweise auf Anzeichen für Suizidgefahr.

Neuronale Netze würden verwandt, so Illgner-Fehns, um große, umfangreiche Datenmengen auszuwerten. Durch die vielen Daten, die diese verarbeiteten, ließe sich letztlich nicht mehr genau nachvollziehen, wonach eine Entscheidung getroffen würde. Vielmehr lerne das Netzwerk selbst hinzu – im Gegensatz zu starren Algorithmen, die vom Programmierer vorgegeben werden.

Aeneas Rooch, SCISYS Deutschland GmbH, möchte mittels KI den Audioschnitt vereinfachen.

Im 21. Jahrhundert angekommen

Warum ist KI nun wichtig für die Medien? Weil die Wettbewerber, die Googles und Facebooks, allesamt im Cloud-Zeitalter angekommen sind. Sie werten Daten systematisch aus. Doch wofür? Aktuell gewinnen die großen Web-Giganten Werbeeinnahmen durch das Versprechen, die Werbung zielgerichtet auszuspielen. Überdies wissen die Tech-Firmen ganz genau, was den Einzelnen antreibt und wie er tickt. Dies machen sich die Amazons oder Netflixs zunutze, indem Sie ihren Kunden Filme und Musik nach Gusto empfehlen. Selbstlernende Empfehlungssysteme also als ein Beispiel für Machine Learning.

Als weitere relevante Anwendungen hob Ross die Sprache hervor. Die Dialogfähigkeit sei das, was Menschen ausmache. Und genau für Sprache reichten einfache Algorithmen nicht mehr aus. Hier sei das sogenannte Deep Learning gefragt. Komplexe, sogenannte neuronale Strukturen müssten hier die Daten für eine Bild- oder Spracherkennung auswerten. Diese müssten ihre Fähigkeiten anhand von geeigneten Datensätzen selbst verbessern können, also lernfähig sein.

Bilder und Töne erkennen

Cyrus Vahid beschäftigt sich bei der Amazon Web Services GmbH damit, Audio- und Videodateien automatisch auszuwerten. Ein Anwendungsbeispiel, an dem Amazon arbeite: Mit Spracherkennung ließen sich beispielsweise automatisch Untertitel generieren – wichtig etwa für die vielen US-amerikanischen Serien, die deren Fans möglichst zeitnah sehen möchten und damit zwangsläufig in der Originalsprache. Hier erleichtern Untertitel das Verständnis.

Im Gegenzug ließen sich mittels Text-To-Speech erste Audiospuren für Animationsfilme erzeugen. Etwa, um die Lippenanimation zu prüfen. Sicherlich nicht für die Endfassung, wie Vahid einräumte. Gelernte Sprecher und Schauspieler lassen sich hier schwerlich ersetzen. Ebenso demonstrierte Vahid, wie sich Objekte und Personen in Bewegtbildern automatisch erkennen und verschlagworten lassen – selbst, wenn sie aus verschiedenen Perspektiven aufgenommen werden.

Thomas Heigl und Sandro Stark von der Microsoft Deutschland GmbH arbeiten an möglichen Anwendungen von künstlicher Intelligenz. Für Stark ist das Smartphone am Ende seiner Entwicklung angelangt. Das Display sei als Interface zwischen Mensch und Maschine ausgereizt, der nächste Schritt fällig.

Doch wie müssen Daten aufbereitet werden, wenn Displays verschwinden? Hier ließen sich beispielsweise Videos indexieren, verschlagworten und der Text aus der Audiospur extrahieren, indem die Videodateien mit entsprechenden selbstlernenden Algorithmen bearbeitet und erschlossen werden. Eine Voraussetzung etwa, um Mediendateien per Sprachsteuerung zugänglich zu machen.

Mit Spracherkennung Archive katalogisieren

Schlaue Maschinen können die Inhalte von großen Archiven mit Schlagworten und umfangreichen Metadaten versehen. Solche Sisyphos-Tätigkeiten schreien förmlich nach einer Automation. Die Verfahren dafür sind technisch komplex und setzen auf selbstlernende Techniken. Die Kosten für eine systematische Erschließung hätten sich im Falle des UFA-Archivs jedenfalls nach sechs Monaten bereits eingespielt, so Heigl. Beispielsweise seien GZSZ-Folgen von den serienbegeisterten Südamerikanern abgerufen worden.

Welche Mammutaufgabe hinter einer intelligent verwalteten Mediathek steht, verdeutlichten André Berthold und Jérôme Landgräfe von der ARD Mediathek. Denn obwohl etliche ARD-Landesfunkhäuser bereits bandlos, also dateibasiert mit sogenannten Media-Asset-Management-Systemen produzieren, blieben die Metadaten keineswegs von der Produktion über den Ingest bis zur Sendung erhalten oder würden gar gepflegt. Daher sind die Administratoren der Mediathek beim SWR in Mainz gezwungen, die Metadaten nachträglich selbst einzupflegen. Sie entwickeln dafür umfangreiche Algorithmen, die sie selbst noch vor der künstlichen Intelligenz und selbstlernenden Maschine einstuften.

Die Bots sind längst da

Für Saim Rolf Alkan, Gründer und Geschäftsführer der aexea GmbH, sind Textbots keine Zukunftsmusik. Der ebenso umtriebige wie pfiffige schwäbische Unternehmer hat sich ganz der automatischen Texterstellung verschrieben. Sein Unternehmen liefert Monat für Monat zigtausende Texte an große Online-Portale und Webshops. Die Einsatzszenarios sind vielfältig: Ob Wetter oder Börsendaten, Sportergebnisse oder Produktbeschreibungen – seine Algorithmen erzeugen aus Datensätzen Artikel. Liegen die Daten vor, sind die Texte auf Knopfdruck in Sekundenbruchteilen fertig. Dafür hat Alkan eine eigene, an HTML erinnernde Sprache erfunden: ATML3. Er hofft, sie als Standard für die automatische Texterzeugung zu etablieren. Alkan erläuterte, wie sie funktioniert: Vom einfachen Lückentext, bei dem an den entsprechenden Stellen etwa die Tagestemperatur eingesetzt wird, lassen sich über Textbausteine, die nach dem Zufallsprinzip ausgewählt werden, leicht Textvariationen erzeugen. Schließlich weiß jeder Sprachschüler, dass ein ewig gleicher Satzbau rasch Langeweile erzeugt.

Saim Rolf Alkan, Gründer und Geschäftsführer der aexea GmbH

Die Anwendungen seiner Technologie beschränken sich keineswegs allein auf die Texterzeugung: Auch eine umfangreiche Analyse, welche Texte wann und wo geklickt werden, ist möglich. Und selbst spannende Geschäftsmodelle hat Alkan in petto: Etwa die Idee, mit deutschen Fußball-Bundesliga-Ergebnissen einen chinesisch-sprachigen Chat-Service zu betreiben.

Auch Wolfgang Zehrt, Journalist und Reporter, betont die wachsende Bedeutung von Textbots. Bereits in wenigen Jahren, ist Zehrt nach einer Studie der BBC überzeugt, würden 90 Prozent aller Nachrichten automatisch generiert. Während sich der Roboterjournalismus heute auf Fußball, Börse und Wetter beschränke, ließen sich künftig hochwertige Nachrichten auch für kleine Zielgruppen erstellen, so Zehrt.

Rechtliche Aspekte

Wie die KI rechtlich zu bewerten sei, wusste Jörg Ukrow, stellvertretender Direktor der Landesmedienanstalt Saarland, zu beantworten. Der Jurist verwies auf den verfassungsrechtlichen Auftrag des Staates, die Vielfalt der Medienangebote zu bewahren. Diese könnte durch Empfehlungstechniken eingeschränkt werden, indem Online-Anbieter ihren Nutzern nur noch Inhalte nach Geschmack servieren. Die in jüngster Zeit oft erwähnte Filterblase also könne so der Medienvielfalt entgegenstehen. Doch dies bedeute keineswegs, so Ukrow auf Nachfrage, dass KI und Textroboter damit zu verbieten seien. Es komme eben darauf an – wie häufig in Rechtsfragen.