Home » Digitales & Online » Youtube Video Transkription – Breaking up the Black Box

Youtube Video Transkription – Breaking up the Black Box

Zuletzt aktualisiert: 1. August 2022
Digitales & Online

In diesem Beitrag geht es um die Transkription von Videos, also der Verschriftlichung der gesprochenen Inhalte. Audiovisuelle Medien haben bislang ein wesentliches Manko im Online-Kontext, dass diese (zum Großteil) nicht maschinenlesbar sind. Suchmaschinen und deren Crawler sind auf zusätzliche Nutzerangaben angewiesen, um den Inhalt von Videos und Audioaufzeichnungen, aber auch Podcasts, Interviews und Reportagen etc. auszulesen.

Die Videotranskription, respektive Audiotranskription, bietet hier einen großen Mehrwert, um gesprochene Sprache in Text umzuwandeln. Im Folgenden werde ich näher auf die Transkription audiovisueller Medien eingehen, und aufzeigen, welches bislang weitestgehend unerschlossene Potential im Zusammenhang von Online-Medien und audiovisuellen Inhalten, respektive in Hinblick auf Digitalisierungsstrategien, in dieser Technik steckt.

Videos in Online-Medien

In Zeiten von Pinguin und Panda¹ ist man ständig auf der Suche nach neuen Ideen und Konzepten, um Leser, Kunden oder Interessenten für seine Inhalte zu begeistern. Ein beliebtes Medium ist dabei Youtube, respektive Audio- und Videoinhalte im Allgemeinen, was es Nutzern erlaubt, Inhalte ähnlich zu Fernsehen & Radio sehr leicht zu konsumieren.

Nach Google ist Youtube gemessen an den täglichen Suchanfragen eine der größten Suchmaschinen weltweit. Täglich werden mehr als 4 Milliarden Videos aufgerufen (vgl. Youtube Statistik, Stand 2012) und jede Minute sage und schreibe 60 Videostunden (also 3600 Bandminuten je Minute!) auf die Videoplattform hochgeladen. Dies ist ein unmissverständliches Signal, dass audiovisuelle Inhalte gegenüber textlichen Inhalten auf dem Vormarsch sind.

In Hinblick auf das rasante Wachstum mobiler Endgeräte, die es im Handumdrehen ermöglichen eigene Videos bei Youtube hochzuladen, diese zu konsumieren und zu teilen, werden diese bereits jetzt beeindrucken Zahlen noch weiter ansteigen, und damit einen der größten Wachstumsmärkte im Online-Bereich darstellen.

Indexierung von Audio- und Videoinhalten

Das große Problem, wenn man es als solches bezeichnen möchte, ist, dass die Inhalte praktisch wie in einer Black Box vorliegen. Die einzigen Indikatoren für Suchende sind der Titel und die Beschreibung der Videos, die auf die Inhalte schließen lassen. Es gibt unzählige unterbewertete, im Sinne von angezeigten Videomaterial, Inhalte, die aufgrund fehlender beschreibender Stichwörter schlichtweg für die meisten unsichtbar bleiben.

In diesem Zusammenhang gewinnt das Schlagwort Barrierefreiheit immer mehr Bedeutung. Inhalte müssen zugänglich sein und damit zusätzlich in Textform vorliegen. Das unterschätzte Potential hierbei liegt aber nicht zwingend darin, dass Leser die Texte zu den Videos und Audioinhalten konsumieren, sondern vielmehr darin, dass erst durch die Barrierefreiheit diese Inhalte überhaupt von Suchmaschinen wie Google, Bing oder Yahoo auffindbar sind.

Die Transkription bezeichnet die Verschriftlichung von Audio- oder Videoinhalten. Der Detailgrad der Transkription hängt mit dem jeweiligen Verwendungszweck, etwa einer sozialwissenschaftlichen Analyse im akademischen Kontext oder einer inhaltlichen Niederschrift des Gesagten für eine Publikation, zusammen. Synonym werden oft die Begriffe ‚Abschrift‘, ‚Mitschrift‘ oder ‚Gesprächsprotokoll‘ für spezielle Formen der Transkription verwendet.

Für welche Inhalte ist die Transkription sinnvoll?

Nicht in jedem Fall sind Audio- und Videotranskriptionen von Youtube-Inhalten sinnvoll, wie etwa bei äußerst kurzen Videos oder privaten Inhalten. Aber um nur ein paar Ideen zu nennen, bei denen das Konzept der Transkription von Audio und Video äußerst sinnvoll erscheint, im Folgenden ein Überblick mit Anwendungsgebieten für die Transkription:

Aufzeichnungen von Konferenzen, Meetings, Vorträgen
TV-Aufzeichnungen, Reportagen, sonstiges Videomaterial
Webinare, Vodcasts und Podcasts » audiovisuelle Inhalte als Text anbieten
Firmenvideos, Consulting Präsentationen
Mitschnitte von Kongressen und Veranstaltungen

Es gibt also unzählige Anwendungsfälle, wie sich aus vorhanden Audio- und Videoaufzeichnungen deutlicher Mehrwert generieren lässt. Zum einen für Leser, die erst dadurch überhaupt auf bestimmte Inhalte aufmerksam werden, und zum anderen auch für Betreiber von Webseiten, die mittels der Transkription, also dem Verschriftlichen von audiovisuellen Inhalten, neue Zielgruppen erreichen können und auch dem gerecht werden, was die großen Suchmaschinen fordern: Inhalte in Textform bereitzustellen, die Mehrwert für Nutzer bieten. Weil es durch diese Textinhalte erst -und nicht durch Videos oder Audioinhalte – für Google, Yahoo oder Bing möglich ist, Webseiten zu bewerten, analysieren und entsprechend weiterer Kriterien in den Rankings zu staffeln.

Die Anwendung der Audio- und Videotranskription wird in den nächsten Jahren noch enorm an Bedeutung gewinnen, da der Wunsch nach Barrierefreiheit, der Durchsuchbarkeit von audiovisuellen Inhalten und letztendlich dem ständig wachsenden Konsum dieser Medien weiter steigen wird. Ein Blick in die englischsprachigen Sphären des Web zeigt, das hier die Transkription von Sprachinhalten bereits weitaus mehr Einzug gehalten hat. Hintergrund ist aus meiner Sicht, die kostengünstige Verfügbarkeit von Transkriptionsdienstleistungen durch Offshore-Outsourcing.

Nach wie vor ist und bleibt die Audiotranskription, bzw. Videotranskription ein aufwendiges Verfahren, das – will man qualitative Inhalte, sprich fehlerfreie und korrekt zitierte Aussagen in Schriftform bringen – einen hohen Arbeitsaufwand bedeutet. Dennoch, für bestimmte Zielgruppen mit kommerziellen Webauftritten, die Videos und Audioaufzeichnungen anbieten, ist gerade die Transkription dieser Inhalte ein bislang weit unterschätztes Verfahren, um eben diese Inhalte auch auffindbar und durchsuchbar (Stichwort: Indexierung bei Google und weiteren Suchmaschinen) zu machen.

Trotz automatisierter Transkription von Youtube Videos, wie Google es bereits derzeit auf seiner Plattform umsetzt, ist die manuelle Transkription auf absehbare Zeit ein unumgänglicher Schritt, wenn Videoinhalte auch fehlerfrei angezeigt werden sollen. Hintergrund ist, dass die automatisierte Spracherkennung nach wie vor an seine Grenzen stößt, wenn 1) mehrere Sprecher vorhanden sind, 2) Hintergrundgeräusche, wie etwa Musik, das Gesagte nicht eindeutig auslesbar machen, 3) Dialekt & Slang auftreten und 4) die Aufzeichnungsqualität für eine automatisierte Auslesung unzureichend ist.

Audiotranskription: Ein Ausblick über die zukünftige Nutzung

Abschließend sei noch angemerkt, dass sich die Methode der Transkription nicht nur für gesprochene Sprache in Videos eignet, sondern darüber hinaus sich auch für bildliche Inhalte hervorragend eignet, wenn beispielsweise beschreibende Texte für cinematographische Inhalte bereitgestellt werden (vgl. Audiodeskription), was einen weiteren Vorteil für maschinenlesbare und barrierefreie Inhalte darstellt.

Ein zweiter Punkt ist in Hinblick auf Google durchaus interessant. Würde der Suchmaschinen-Gigant ein Tool, ähnlich wie die Transkriptionssoftware F4, die ohne Zweifel für den Bereich der Audiotranskription aktuell die beste Wahl ist, seinen Nutzern kostenlos zur Verfügung stellen, würden auf einen Schlag Millionen potentielle Schreibkräfte für Youtube arbeiten, und der automatisierten Transkription die menschliche Intelligenz sprachlicher Ausdrucksweise entgegensetzen, und weitaus qualitativere Transkriptionen zur Verfügung stellen. Mit zusätzlichen erweiterten Features dieser Software, die eine effektivere Transkription möglich machen (siehe Optimierungs-Ideen in den jeweiligen Metaboxen auf Tikoim.de), wäre zudem der Anreiz zur Abschrift der Videoinhalte deutlich höher.

Autor: Heiko Schmieder, M. A. (2014). Youtube Video Transkription – Breaking up the Black Box. Tikoim.de

» Transkriptionssoftware: Audiotranskription Software mit neuer Version F4 Pro

Metabox

Transkriptionsverfahren zum automatischen Transkribieren: Google Patent, 2005. (Ref.)
Automatische Transkription Youtube: Wann und für welche Inhalte? Nicht per se verfügbar.

Problemstellungen bei der kommerziellen Transkription von Sprachinhalten:

Skalierbarkeit bis dato schwierig. Hintergrund ist der Prozess der manuellen Abschrift, und das damit verbundene kognitive Verständnis der Schreibkraft – ergo: eine Nachbearbeitung ist fast in jedem Fall erforderlich, um auch interdisziplinäre Inhalte fehlerfrei abbilden zu können. Die Anforderung an die Transkriptionsgenauigkeit, respektive der Transkriptionskonventionen stellt eine weitere Barriere für eine uneingeschränkte Skalierbarkeit dar.

Next Level: Audio-Mining-Technologie.
Fragestellung: Können automatisiert qualitative Inhalte, sprich, grammatikalisch/semantisch korrekte Inhalte ausgelesen werden, oder ist es aktuell mehr ein Auslesen nach einzelnen Wortlauten. (vgl. automatisierte Youtube Transkription, sehr fehlerbehaftet trotz modernster Audioanalyse. Stand 2013)
Tags: Audio Mining, Sprachanalyse

Autor: Heiko Schmieder, M. A.

Fußnoten:
1 – Bei den sogenannten Panda und Pinguin Updates handelt sich um Algorithmusänderungen von Google, die vereinfacht gesagt, die Qualität von Website-Inhalten (Content), sowie interne und externe Einflussfaktoren in den Fokus rücken.

Meta: Der Beitrag "Youtube Video Transkription – Breaking up the Black Box" erschien zuerst am 18. Juni 2012

Stichworte: Transkription, Videotranskription

Carl 19. September 2012 um 10:52

Interessanter Ansatz. Schade nur, dass es Youtube einem so schwer macht, die Videos praktisch lokal zu speichern, um sie im Anschluss zu transkribieren. Eine Online-Transkriptions-Funktion in dem Sinne gibt es leider noch nicht. Nun muss ich doch wieder den Youtube-Downloader installieren, um die Audiospur zu Papier zu bringen. So denn! Let’s break up the Black Box!! 🙂
tikoim 4. Oktober 2012 um 22:13

Zum Thema Spracherkennung sei noch angemerkt, weil man eigentlich mittlerweile annehmen könnte, dass es hierfür automatisierte Lösungen geben könnte, dass eine 1:1 Spracherkennung natürlicher Sprache, selbst in Zeiten von Siri oder der Google -Youtube- Transkription, nicht möglich ist. Für extra diktierte Texte mag es in Form des „Respeaking“ in Ansätzen funktionieren, aber für Gesprächsdaten mit mehreren Sprechern, Dialekt und Hintergrundgeräuschen ist dies nach wie vor nicht möglich. Die manuelle Transkription, also Verschriftlichung gesprochener Sprache, ist (noch) der Stand der Dinge. Hierzu eine wissenschaftliche Quelle: Dresing, Thorsten; Pehl, Thorsten & Lombardo, Claudia
(2008). Schnellere Transkription durch Spracherkennung? [35
Absätze]. Forum Qualitative Sozialforschung / Forum: Qualitative
Social Research, 9(2), Art. 17, http://nbn-resolving.de/urn:nbn:de:0114-fqs0802174.
tikoim 30. November 2012 um 12:57

Hier noch ein lesenswerter Artikel nachgereicht, mit dem vielversprechenden Titel „Transkription von Radiospots“. Eine Übersicht aus der Sicht der Informatik (Stand 2009) an der HAW Hamburg, von Kristoffer Witt.

http://users.informatik.haw-hamburg.de/~ubicomp/projekte/master2009-aw2/witt/folien.pdf

Das Kurz-Fazit lautet: „(…)Aktueller Technologieeinsatz zum Teil (Sprecher unabhängige Erkennung) nicht zufriedenstellend
=> Erstellung eines fehlerfreien Transkripts äußerst
unwahrscheinlich (…)“
__________________________
F: Wie lange braucht man für die Transkription eines Videos?
A: Ausschlaggebend sind die Punkte Verständlichkeit / Qualität des Ausgangsmaterials, Sprechgeschwindigkeit der Sprecher, Anzahl der Sprecher, und natürlich Tippgeschwindigkeit, wobei man festhalten muss, dass bei der Transkription von Audio- und Videoinhalten dies keinesfalls der wirklich ausschlaggebende Punkt ist, da das gesprochene Wort, sprich mündliche Kommunikation komplex ist, und wer als Dritter ein Gespräch „schriftlich übersetzt“, also zu Papier bringt, muss Passagen zum Teil mehrmals anhören, um den Sinngehalt auch korrekt niederzuschreiben. Besonders bei fachspezifischen Themen gilt es Recherchearbeit einzuplanen und definitiv eine zweite Person gegenlesen zu lassen, um alle Inhalte vollständig und korrekt zu erfassen.