Audrey, IBM Shoebox, ViaVoice, Dragon, Siri, Google Now, Cortana: Die Geschichte der automatischen Spracherkennung

IBM Shoebox (1962)
William C. Dersch führt die IBM Shoebox vor

1962 präsentierte IBM ein Spracherkennungssystem, das nur 16 Worte verstehen konnte. Heutige Sprachautomaten wandeln Diktate in Text um oder bedienen Handys und Navigationssysteme. Rechner, die menschliche Sprache ganz ohne Probleme verstehen, sind aber noch nicht in Sicht.

Der Wortschatz des ersten Spracherkennungssystems war noch sehr begrenzt: Die „Shoebox“ des Computerkonzerns IBM erkannte gerade einmal 16 Worte: Es waren die Zahlen von null bis neun und außerdem die mathematischen Anweisungen «minus», «plus», «subtotal», «total», «false» und «of».

Shoebox wurde von William C. Dersch am Advanced Systems Development Division Laboratory von IBM in San Jose, Kalifornien entwickelt. Am 21. April 1962 stellten Dersch und seine Kollegen den IBM-Rechner in der Größe einer Schuhschachtel auf der Weltausstellung in Seattle der breiten Öffentlichkeit vor.

Im Schatten der futuristischen Space Needle sah das staunende Publikum, wie die Maschine die gesprochene Rechenaufgabe «Fünf plus drei plus acht plus sieben plus vier minus neun, zusammen» auf Englisch verstehen und die korrekte Antwort «17» ausspucken konnte. Zu diesem Zeitpunkt war IBM noch fast 20 Jahre von der Entwicklung des ersten Personal Computers entfernt.

Entwurf Sprechmaschine Von Kempelen (1791)
Entwurf Sprechmaschine Von Kempelen (1791)

Die Versuche, Sprachapparate zu bauen, gehen bis ins 18. Jahrhundert zurück. Zunächst ging es um die Aufgabe, Maschinen zu entwerfen, die wie ein Mensch sprechen können. Einer der Pioniere warder ungarische Gelehrte Wolfgang von Kempelen, der in den Geschichtsbüchern vor allem mit seinem Schachtürken zu finden ist. Von Kempelen entwarf 1791 in einem Buch aber auch eine Sprechmaschine, die als verschollen gilt. In der Wikipedia wird Kempelens Sprechmaschine zur Hervorbringung menschlicher Sprachlaute als „eine auch wissenschaftsgeschichtlich bedeutende Leistung“ gewürdigt. „Nicht zuletzt handelt es sich bei ihr um die erste grundsätzlich funktionstüchtige Konstruktion zur Sprachsynthese überhaupt.“

Es ist allerdings ohnehin fraglich, ob es die Sprechmaschine in der beschriebenen Form jemals gegeben hat: Eine 1784 (also deutlich vor der Veröffentlichung des „Mechanismus“) in Leipzig unter Kempelens Mitarbeit angefertigte Beschreibung und Zeichnung der Sprechmaschine zeigt diese mit einem deutlich komplexeren Aufbau als im Buch beschrieben, der zugleich einige Funktionen ermöglicht, die mit der „Buch-Version“ nicht darstellbar sind (bspw. die Veränderung der Tonhöhe während der Bedienung).
Quelle: „Wolfgang von Kempelen“. In: Wikipedia, (Abgerufen: 20. April 2012, 19:27 UTC)

Faber-Sprechmaschine Euphonia (1835)
Faber-Sprechmaschine Euphonia (1835)

Joseph Faber stellte im Jahr 1835 seine Maschine „Euphonia“ vor, die ebenfalls menschliche Sprache erzeugen sollte. Als erste Sprechmaschine besaß sie eine Zunge und einen formveränderlichen Rachenraum und war außerdem zur Synthese von Gesang (unter anderem „God Save the Queen“) geeignet.

Der Blasebalg wurde über ein Pedal getrieben, die Bedienung erfolgte über eine 16-tastige Klaviatur. An der Maschine war ein künstlicher Kopf angebracht, der scheinbar die Sprache produzierte. Das Publikum, dem Faber in Wien die erste Version seiner Maschine vorstellte, zeigte sich unbeeindruckt, woraufhin Faber die Maschine aus Frust zerstörte.
(Quelle: „Euphonia (Sprachmaschine)“. In: Wikipedia. (Abgerufen: 20. April 2012, 19:38 UTC)

Voder (»Voice Operation Demonstrator«) von Homer Dudley (1939)
Voder (»Voice Operation Demonstrator«) von Homer Dudley (1939)

In den Bell Labs wurde schließlich in den 1930ern der Vocoder, ein tastaturgesteuerter elektronischer Sprachsynthesizer entwickelt, über den gesagt wurde, dass er klar verständlich war. Homer Dudleyverbesserte diese Maschine zum Voder, der in der Weltausstellung 1939 präsentiert wurde. Der Voder benutzte elektrische Oszillatoren zur Erzeugung der Formantfrequenzen. Mit dem Voder (»Voice Operation Demonstrator«) von Homer Dudley war es zum ersten Mal möglich, mit einem elektrischen Gerät Sprache zu synthetisieren. Der Voder musste aber noch manuell bedient werden. Um seine Bedienung zu beherrschen, bedurfte es einer einjährigen Ausbildung. Vorgestellt wurde er erstmals 1939 auf der Weltausstellung in New York.

Mittels eines Handgelenkschalters konnte man bestimmen, ob das Ursprungssignal von einem Sinusgenerator für stimmhafte Laute (die Frequenz konnte durch ein Pedal variiert werden) oder einem Rauschgenerator für stimmlose Laute erzeugt wurde.
Dieses Signal wurde nun mit Hilfe mehrerer, durch den Benutzer gesteuerter elektrischer Filter, soweit verändert, dass sich ganze Sätze erkennen ließen.

Demonstration Voder:

Parallel zum Voder wurde der Vocoder entwickelt, wobei der Vocoder anders als der Voder nicht nur als Demonstrator konzipiert wurde.
(Quelle: „Voder“. In: Wikipedia. (Abgerufen: 20. April 2012, 19:42 UTC)

Die erste maschinelle Spracherkennung wurde 1952 ebenfalls an amerikanischen Bell Laboratories entwickelt. Das System «Audrey», sollte einzelne Zahlen erkennen. «Man musste zwischen den Zahlen aber lange Pausen machen, damit Audrey die Ziffern überhaupt verstehen konnte», sagt Prof. Hans Uszkoreit vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin.

1952 – Automatic Digit Recognition (AUDREY)
1952 – Automatic Digit Recognition (AUDREY)

Der nächste Meilenstein der Spracherkennung wurde Ende der sechziger und in den siebziger Jahren an der Carnegie Mellon University mit massiver Förderung durch das US-Verteidigungsministerium und seiner Agentur DARPA erzielt. «Harpy» beherrschte mit gut 1000 Worten den Sprachschatz eines Dreijährigen.

Und es dauerte dann weitere zehn Jahre, bis die nächste Entwicklungsstufe erreicht werden konnte. Die Forscher ließen in den achtziger Jahren ihr System nun nicht mehr einzelne gesprochene Worte analysieren, sondern betrachteten ganz Wortfolgen.

Parameter eines Hidden Markov Model (Beispiel)
Parameter eines Hidden Markov Model (Beispiel)

x — (verborgene) Zustände
y — mögliche Beobachtungen (Emissionen)
a — Übergangswahrscheinlichkeiten
b — Emissionswahrscheinlichkeiten
Quelle: Wikipedia

Siri auf einem iPhone 6
Siri auf einem iPhone 6

Auf der Basis des nach dem russischen Mathematiker Andrej Markov benannten «Hidden Markov Model» wurde berechnet, wie hoch die statistische Wahrscheinlichkeit ist, dass ein bestimmtes Wort einem anderen folgt. So können die Systeme ähnlich klingende Sätze besser unterscheiden. «Die Wortfolge „Ich putze mir die Nase“ ist eben wahrscheinlicher als „Ich putze mir die Vase“», erläutert Experte Uszkoreit.

In den neunziger Jahren erreichte die Spracherkennung den Personal Computer: Damals konkurrierten IBM, Dragon, Philips, der belgische Spezialist Lernout & Hauspie und Microsoft mit ihren Programmpaketen zur Spracherkennung um die Kunden. Nach dem Platzen der «Internet-Blase» im Jahr 2000 folgte am Markt eine schwierige Konsolidierungsphase. Lernout & Hauspie kaufte im Jahr 2000 Dragon Systems, ein Jahr später übernahm Scansoft die Spracherkennungstechnologie der Belgier inklusive des Markennamens Dragon Naturally Speaking. Im September 2005 wiederum übernahm Scansoft die Firma Nuance und benannte sich dann in Nuance Communications an. In den vergangenen zehn Jahren übernahm Nuance wiederum eine lange Liste von kleineren Spezialfirmen. Dort landeten auch die Spracherkennungstechnologien von IBM und Philips.

Den PC- und Smartphone-Programmen von Nuance bescheinigen Experten bei standardisierten Diktieraufgaben, wie sie in einer Rechtsanwaltskanzlei oder Arztpraxis anfallen, eine äußerst hohe Trefferquote. Bei kreativen Texten lohnt dagegen der Einsatz der Diktierprogramme wegen der höheren Fehlerquote nicht immer.

Neue Bewegung in die Branche brachte das Sprachverarbeitungssysteme Siri von Apple, das in 2011 mit dem iPhone 4S als eine Art persönliche digitale Assistentin eingeführt wurde. Siri geht auf ein Forschungsprojekt zurück, das von der US-Militärbehörde DARPA finanziert und dann in eine eigene Firma ausgegründet wurde – bevor sich Apple im Jahr 2010 die Firma für schätzungsweise 200 Millionen Dollar einverleibte. Die eigentliche Siri-App basierte auf einer Zusammenarbeit mit verschiedenen Partnern. Dazu gehörten u.a.:

  • OpenTable, Gayot, CitySearch, BooRah, Yelp, Yahoo Local, Yandex, ReserveTravel,  Localeze für Restaurant- und Business-Informationen
  • Eventful, StubHub, and LiveKick für Infos zu Events and Konzerten
  • MovieTickets, Rotten Tomatoes und die New York Times für Kino-Informationen und Film-Rezensionen
  • Bing Answers, Wolfram Alpha und Evi für das Beantworten von Fakten-Fragen
  • Bing, Yahoo und Google für die Websuche

Doe Quellen in der Siri-Implementation von Apple unterscheiden sich von der ursprünglichen Siri-App. Siri wurde nun mit den zentralen iOS-Apps wie Kontakte, Kalender, Text-Nachrichten und Wetter verknüpft. Es unterstützt auch Suchen via Google, Bing, Yahoo, Wolfram Alpha, Google Maps, Yelp! und Wikipedia.

Bei Siri werden die aufgezeichneten Töne über das Netz an einen Server übertragen und dort analysiert. Die Antworten des Systems werden dann wiederum auf das iPhone zurückgespielt. Obwohl Apple dazu keine Angaben macht, gilt es als sicher, dass die Spracherkennung von Siri Technologie von Nuance verwendet. Zu den Nuance-Kunden gehört auch Samsung und andere Hersteller, die die Sprecherkennungstechnologie auf Smartphones und Computeruhren einsetzen.

Ähnlich funktionieren auch Spracherkennungssysteme von Google („Google Now“) und Microsoft, die mit kleinen Mikrofon-Symbolen im Browser dem Web das Zuhören beigebracht haben. Das System Cortana von Microsoft gehört auf dem Smartphones mit dem Windows-System seit Windows Phone 8.1 zur Standard-Ausstattung. Auch das neue Windows 10 für Desktops und Tablets soll mit Cortana ausgestattet sein. Ähnlich wie bei Siri landen hier die gesprochenen Daten auf Servern in den USA und tragen dazu bei, dass die Erkennungsquote der Systeme ständig verbessert werden kann. Letztlich arbeiten aber auch die ausgeklügelten Systeme von Apple, Google und Microsoft nach den statistischen Analysemethoden der neunziger Jahre.

Insbesondere bei Google arbeiten Forscher aber schon an der nächsten Generation der Spracherkennung, bei der komplette Sätze nach ihrer Bedeutung untersucht werden. «Es ist kein Zufall, dass Google intern den Bereich „Suche“ in „Knowledge“ (Wissen) umbenannt hat», sagt Spracherkennungsexperte Uszkoreit. Wenn Spracherkennungssysteme die Bedeutung der Worte und Sätze lernen, wird vielleicht auch die Vision Wirklichkeit, die Microsoft-Begründer Bill Gates in seinem Buch «Der Weg nach vorn» schon für das Jahr 2007 vorausgesagt hatte, nämlich dass man sich mit Maschinen fast so natürlich unterhalten kann wie mit Menschen.

Dieser Artikel steht unter der Creative Commons Shared Alike 3.0 (CC-by-SA-3.0)-Lizenz

About Christoph

Check Also

Ed Roberts im Jahr 1975

Im Memoriam Ed Roberts, Computer-Pionier und Erfinder des Altair 8800

Gestern ist Ed Roberts, Computer-Pionier und Erfinder des Altair 8800, im Alter von 69 Jahren …

Kommentar verfassen