Bereits Kunde? Jetzt einloggen.
Lesezeit ca. 9 Min.

SPRACHSTEUERUNG: Hey Mycroft! Wie geht Sprachsteuerung?


Chip - epaper ⋅ Ausgabe 3/2019 vom 01.02.2019

DerOpen-Source-Sprachassistent Mycroft arbeitet im Gegensatz zu Alexa, Siri und Google Home transparent. Daher erlaubt er interessante Einblicke in seine Funktionsweise


Artikelbild für den Artikel "SPRACHSTEUERUNG: Hey Mycroft! Wie geht Sprachsteuerung?" aus der Ausgabe 3/2019 von Chip. Dieses epaper sofort kaufen oder online lesen mit der Zeitschriften-Flatrate United Kiosk NEWS.

Bildquelle: Chip, Ausgabe 3/2019

Geräte, die alle Gespräche und Geräusche in der Privatwohnung mithören, gab es bis vor wenigen Jahren nur in dystopischen Romanen. Jetzt verkaufen sie sich als Amazon Echo oder Google Home blendend. Sie laden die aufgezeichneten Daten nicht zum Staat, sondern zu den Unternehmen hoch – was das Ganze nicht unbedenklicher macht. Die Anbieter beteuern, nur beabsichtigte Sprachkommandos zu speichern. Doch gab es bei Google schon den Fehler, ...

Weiterlesen
epaper-Einzelheft 3,99€
Bereits gekauft?Anmelden & Lesen
Leseprobe: Abdruck mit freundlicher Genehmigung von Chip. Alle Rechte vorbehalten.

Mehr aus dieser Ausgabe

Titelbild der Ausgabe 3/2019 von MAILBOX. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
MAILBOX
Titelbild der Ausgabe 3/2019 von SMARTPHONE: Mobile Trendsetter. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
SMARTPHONE: Mobile Trendsetter
Titelbild der Ausgabe 3/2019 von NEWS: Neue GPUs auf der CES. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
NEWS: Neue GPUs auf der CES
Titelbild der Ausgabe 3/2019 von DATENSCHUTZ: Lokale Amnesie. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
DATENSCHUTZ: Lokale Amnesie
Titelbild der Ausgabe 3/2019 von Enabled by Vodafone: SERIE: Das Giga-Netz der Zukunft: Das Herz der Gigabit-Netze. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
Enabled by Vodafone: SERIE: Das Giga-Netz der Zukunft: Das Herz der Gigabit-Netze
Titelbild der Ausgabe 3/2019 von NEWS: Neue Tricks, schöne Tops. Zeitschriften als Abo oder epaper bei United Kiosk online kaufen.
NEWS: Neue Tricks, schöne Tops
Vorheriger Artikel
LEXIKON: Der Internetbeschleuniger
aus dieser Ausgabe
Nächster Artikel MOBILES BEZAHLENL: Bezahlen mit dem Smartphone
aus dieser Ausgabe

... dass Home-Geräte kontinuierlich alles aufgezeichnet und hochgeladen haben. Bei Amazon wurde bekannt, dass Aufzeichnungen eines Echos versehentlich an einen anderen Kunden geschickt wurden. Diese Systeme sind, ebenso wie Apples Siri oder Microsofts Cortana, in sich geschlossen. Daher muss der Nutzer den Herstellerangaben vertrauen, wie viel das Gerät aufzeichnet, was in die Cloud wandert – und ob die Daten auf Wunsch auch tatsächlich dauerhaft wieder gelöscht werden.

Sprachsteuerung offengelegt

In diese Kerbe schlägt der digitale Butler Mycroft: Diesem Open-Source-Sprachassistenten können Sie bei der Arbeit über die Schulter schauen. Jeder darf im Quellcode prüfen, was die Software genau macht. Der Anwender verfolgt auf Wunsch live jeden Schritt in einer Konsole. Wie bei kommerziellen Produkten läuft die Erkennung des Kommandoworts lokal auf dem Gerät – vorerst allerdings nur auf Englisch. Das ständige Mithören übernimmt die Mycroft-eigene Engine Precise, die auf Trainingsdaten eines neuronalen Netzes basiert. Erst wenn sie das Kommando „Hey Mycroft“ erkennt, aktiviert sie die zweite Stufe, die Sprache-zu-Text-Umwandlung.

Dazu wird der nach „Hey Mycroft“ gesprochene Befehl aufgezeichnet und zu Mycroft-Servern hochgeladen. Diese leiten ihn für die Sprachanalyse derzeit noch an Googles Sprache-zu-Text-System (STT) weiter – immerhin anonymisiert. Das STT schickt den Befehl in Textform zurück. Das Mycroft-Team arbeitet mit der Mozilla Foundation an der Open-Source-Lösung Deep Speech. Sie basiert auf der KI-Engine TensorFlow und läuft bisher nur auf einem leistungsstarken GPU-Cluster schnell genug. Fortgeschrittene User können in der Mycroft-Konfiguration bereits einen solchen Testserver statt Google eintragen. In Zukunft soll die Rechenleistung ausreichen, wie sie etwa an Bord eines Autos verfügbar ist. Alternativ kann man auch die STT-Dienste IBM Watson oder Facebooks wit.ai einbinden.

MyCroft-Account einrichten

Ohne Verbindung zu einem leistungsfähigen Online-Server kommt das lokale Mycroft-Gerät nicht aus. Die Verknüpfung zwischen beiden stellt der Mycroft-Account her, den Sie unterhome.mycroft.ai einrichten. Darin konfigurieren Sie auch Grundeinstellungen und die Skills.
> Die Grundeinstellungen finden Sie unter »Settings | Basic«. Hier stellen Sie etwa die Maßeinheiten und das Zeitformat ein. Unter »Advanced | Text-to-Speech-Engine« können Sie etwa von der etwas hölzerne Mycroftauf die schöner klingende Google-Textausgabe umstellen.

Bereits beim Einrichten des Accounts wird nach dem »Registration Code« (oberes Feld) gefragt, den jeder noch nicht verknüpfte Mycroft aufsagt


Mycrofts Konsole erlaubt den Blick hinter die Kulissen – hier sieht man, was das System versteht und was es daraus macht


Ein RasPi für Mycroft

Der einfachste Weg zu einem funktionierenden Mycroft ist das Projekt „Picroft“ – ein vorkonfiguriertes System für den Raspberry Pi

Raspberry Pi 3 B+
Die anspruchsvolle Mycroft-Software erfordert mindestens die Rechenleistung des Pi 3 Modell B (ca. 35 Euro)


Das richtige Mikrofon
Das USB-Mikrofon sollte von Picroft unterstützt werden – wie etwa das Blue Snowball (ca. 85 Euro)


Standard-Lautsprecher
PC-Boxen wie Creatives A50 mit 3,5-mm-Klinke und USB-Stromversorgung reichen aus (ca. 15 Euro)


Sinnsuche: Mycroft-Bausteine interpretieren Befehle

Den vom STT-Modul zurückgelieferten Befehlstext, etwa „Set an alarm for 18:25“, reicht Mycroft an seinen selbst entwickelten „Intent Parser“ namens Adapt weiter. Auch diese Software greift auf Trainingsdaten eines neuronalen Netzes zurück, um den Befehlstext auf „Intentionen“ zu untersuchen, also Fähigkeiten, die Mycroft beherrscht, und auf „Entities“. Das sind Parameter, die zur Ausführung relevant sind. Im obigen Beispiel erkennt die Software etwa „alarm“ als Intention (weil Mycroft einen Wecker stellen kann), und „18:25“ Uhr als Parameter. Findet sich kein passender Skill, übernehmen Fallback-Skills. Das sind zum Beispiel die Websuche Duckduckgo oder Wolfram Alpha, die eine kompakte Antwort in Textform liefern – etwa auf Fragen wie „Who is Jimi Hendrix“ oder „How tall is the Zugspitze in meters“. Schlägt auch das fehl, wird die Aussage herausgegeben, dass Mycroft den Befehl nicht verarbeiten konnte.

Grundlegende Skills beherrscht Mycroft ab Werk, andere lassen sich nachinstallieren oder sogar selbst programmieren. Als Ausgabe produzieren sie Text, spielen Audiodateien/Streams ab oder lösen Aktionen über das Netzwerk und die Hardware-Schnittstellen des Raspberry Pi aus. Ein Webradio-Skill gibt zum Beispiel den Text aus: „Playing Internet Radio“ und streamt anschließend die gewünschte Station von der hinterlegten URL. Die Sprachausgabe des Textes erledigt hierbei der im Folgenden besprochene Mycroft-Baustein.

Das Tool Etcher macht die Erstellung der Picroft-SD-Karte am PC zum Kinderspiel: Image und Karte auswählen, dann flashen


1


2


Per SSH zum Pi
Auf dem RasPi arbeiten Sie mittels PuTTY. Geben Sie bei »Host Name:« „picroft“ 1 ein und loggen Sie sich als User „pi“ mit dem Passwort „mycroft“ ein. Dann startet zunächst das Setup 2

Optimale Hardware für Picroft

Picroft verlangt dem Raspberry Pi einiges ab. Doch mit der richtigen Hardware läuft der Mini-Rechner dauerhaft stabil

Netzteil: 2,5 A sind Pflicht
Das Netzteil muss mindestens 2,5 Ampere liefern, wie das offizielle Raspberry-Pi-Modell

Robuste SD-Karte
SD-Karten mit MLC-Speicher wie Transcends „High Endurance“-Reihe vermeiden viele Pi-Probleme

Internet-Anschluss
Für Picroft sollte der RasPi über das schnelle und zuverlässige LAN-Kabel statt per WLAN angebunden sein

Text-to-Speech: Mycroft liest Texte vor

Ein Sprachassistent muss natürlich auch selbst sprechen können. Bei Mycroft übernimmt das standardmäßig die Text-to-Speech-Engine mimic. Dieses eigens entwickelte Linux-Kommandozeilenprogramm gibt beliebige Texte als Sprache über die Lautsprecher aus; wegen des Open-Source-Ansatzes können Fortgeschrittene viele verschiedene Sprachdateien nutzen oder sogar eine eigene Sprachdatei erstellen und einbinden. Die standardmäßig verwendete Sprache klingt hölzerner als bei Amazon oder Google, ist aber gut verständlich.

Mycroft installieren und nutzen

Mycroft auf einem Linux-PC zu installieren, ist kein Hexenwerk – die Anleitung finden Sie untergithub.com/MycroftAI/mycroft-core . Doch die Konfiguration und Inbetriebnahme können je nach PC-Hardware und verwendetem Mikrofon schnell sehr kompliziert werden. Am einfachsten ist es daher, das für den Raspberry Pi vorgefertigte SD-Karten-Image Picroft zu verwenden. Zudem beziehen sich die meisten Informationen, die man bei Websuchen zu Mycroft und möglichen Problemen findet, auf diese Version. Nicht zuletzt ist der Mini-Rechner sparsam genug, um ihn dauerhaft als Sprachassistent laufen zu lassen. Auf der CHIP-DVD finden Sie es in derselben Version, mit der wir die folgende Beschreibung erstellt haben. Ein aktuelles Picroft-Image können Sie untermycroft.ai/get-mycroft/ herunterladen und gemäß unserer Beschreibung installieren.

Hardwareseitig benötigen Sie einen Raspberry Pi 3 Modell B/B+ (ca. 35 Euro). Zudem brauchen Sie einen beliebigen Lautsprecher für den 3,5-mm-Klinkenanschluss des RasPi sowie ein USB-Mikrofon. Am einfachsten klappt es mit den offiziell von Picroft unterstützten Modellen, von denen die Kamera-Mikro-Kombination PlayStation Eye von Sony am günstigsten ist (bei Amazon oder eBay unter 15 Euro). Wir haben das ebenfalls offiziell unterstützte USB-Tischmikrofon Blue Snowball (ca. 85 Euro) aus unserem Videostudio erfolgreich getestet. Diese unterstützten Modelle kann der Einrichtungsassistent direkt konfigurieren – ansonsten ist Handarbeit gefragt.

Picroft auf die SD-Karte installieren

Auf einem Windows-Rechner mit SD-Kartenslot stecken Sie eine Micro-SD-Karte mit mindestens 8 GByte ein und starten das Tool Etcher (auf CHIP-DVD). Wählen Sie mit dem ersten Knopf das Picroft-Image (auf CHIP-DVD) aus, mit dem zweiten Knopf den Laufwerksbuchstaben der SD-Karte und starten Sie den Kopiervorgang mit dem dritten Knopf. Danach verbinden Sie USB-Mikro, Lautsprecher und LAN-Kabel (zum Router) mit dem RasPi, stecken die SD-Karte ein und geben ihm Strom.

Wenn Sie einen Linux- oder Windows-10-PC haben, öffnen Sie eine Eingabeaufforderung und geben ein: „ssh pi@picroft“, um sich auf dem Picroft einzuloggen (Passwort: mycroft). Unter Windows 7/8 installieren und starten Sie das kostenlose Tool PuTTY (aufchip.de ). Nach dessen Start geben Sie bei »Host Name: « „picroft“ ein, beim folgenden »Login as:« „pi“. Nach Eingabe des Passworts „mycroft“ startet der Ersteinrichtungs-Assistent. Dessen Fragen nach Audioausgang, Lautstärke und Mikrofontyp beantworten Sie mit den angebotenen Zahlen oder Buchstaben. Er endet mit einem Mikrofontest, bei dem Sie einige Sekunden sprechen, was dann über die Lautsprecher ausgegeben wird. Misslingt das, probieren Sie die Tipps unter „Audio-Probleme beheben“ (unten) aus. Hat alles geklappt, startet die Mycroft-Konsole und zeigt unten rechts einen Mikrofonpegel an, der bei Geräuschen und Sprache ausschlägt. Zudem sagt der Picroft seinen Aktivierungscode auf (und zeigt ihn in der Konsole an).

Mycroft-Account anlegen

Spätestens jetzt legen Sie einen Account unter der URLhome. mycroft.ai an, wobei Sie nur eine funktionierende E-Mail-Adresse angeben müssen. Schon im dritten Schritt werden Sie nach dem »Registration Code« und einem Namen für den Picroft gefragt. Über den Pfeil oben rechts und »Devices« erreichen Sie immer die Einstellungen Ihres Geräts – die »Location« ist wichtig für die korrekte Uhrzeit und für die Wettervorhersage. Nach der Eingabe verbindet sich ihr Picroft mit dem Onlinedienst und Sie können schon den ersten Befehl ausprobieren, indem Sie etwa sagen: „Hey Mycroft, what time is it?“ oder „Hey Mycroft, what’s the weather?“. In der Konsole sehen Sie, welchen Befehl die Software erkannt hat und wie sie darauf reagiert.

Die Linux-Kommandozeile brauchen Sie für einige Konfigurationsaufgaben. Dazu verlassen Sie die Mycroft-Konsole mit [Strg] + [C]


Skills
Unter market.my croft.ai 1 sind die verfügbaren Skills aufgelistet. Installieren können Sie sie auf der Linux-Kommandozeile 2 mit „msm install [Skill]“

Audio-Probleme beheben

Das Tool alsamixer regelt die Level des Lautsprechers und des Mikrofons, die zu Beginn auf „0“ stehen können


Mycroft ist in einem frühen Entwicklungsstadium und noch weit vom stabilen Betrieb und der Funktionsvielfalt von Amazon Alexa oder Google Assistant entfernt. Bei Installation, Konfiguration und Betrieb kann durchaus etwas schiefgehen – auf diese Probleme sind wir gestoßen:
> Ohne Pulseaudio (das zentrale Linux-Soundsystem) geht gar nichts. Fehlt es, muss man den Setup-Assistenten mit [Strg] + [C] beenden und auf der Kommandozeile mit „sudo apt update“ und „sudo apt install pulseaudio“ das Soundsystem installieren.
> Bei niedrigem Audio-Level ist zwar die richtige Hardware aktiv, doch Mikrofon oder Lautsprecher zu leise geregelt. Dann starten Sie auf der Kommandozeile das Tool „alsamixer“. Es sollte ein Regler „Master“ zu sehen sein, den Sie mit der Pfeil-nach-oben-Taste auf „90“ hoch regeln. Schalten Sie mit [F4] auf die Ansicht „Capture“ um, regeln Sie den Aufnahmepegel ebenfalls auf 90 und beenden Sie mit [Esc].
> Testen Sie die Einstellungen, indem Sie auf der Picroft-Kommandozeile das Tool „mycroftmic-test“ starten.

Mycroft und die dazugehörenden Skills werden als Open-Source-Software auf der Plattform GitHub entwickelt


Einblicke
Den Mycroft-Code kann jeder lesen, der sich auf die einfache Programmiersprache Python versteht


Smart Home
Der Mycroft-Skill »Home Assistant « steuert verschiedene Smarthome-Geräte. Aktuell sucht das Projekt aber einen neuen Entwickler


Skills konfigurieren und nachinstallieren

Grundlegende Skills wie die Zeit- und Wettervorhersage sind bereits vorinstalliert. Die Einstellungen dazu finden Sie in Ihrem Mycroft-Account unterhome.mycroft.ai (oben auf »Skills« klicken). Hier können Sie etwa unter »Mycroft News Player« die deutschsprachigen Nachrichten von Deutschlandfunk oder WDR in der Liste auswählen oder über die Option »Other URL« die URL eines Nachrichten-MP3-Podcasts eintragen. Beispielsweise spielt Mycroft mit der URLwww.tagesschau.de/export/podcast/hi/tagesschau-in-100-sekunden/ die neueste Audioversion der Tagesschau in 100 Sekunden ab, wenn Sie fragen: „Hey Mycroft, what’s the news?“

Weitere Skills sind untermarket.mycroft.ai/skills aufgelistet – darunter allerdings noch einige wenig sinnvolle Test-Skills. Installieren lassen sie sich auf verschiedene Arten. Dabei hat der einfache Klick auf »Add« in der Skill-Liste bei uns nicht funktioniert – im Gegensatz zum erfolgreichen Sprachbefehl „Hey Mycroft, install [Name] skill“. Ebenso gut klappte es über die Kommandozeile. Dazu beenden Sie die Mycroft-Konsole mit [Strg] + [C], um dann den Befehl einzutippen: „msm install cock tails“, woraufhin Ihnen Mycroft auf die Frage „Hey Mycroft, how do I make a… [Cocktail-Name]?“ das entsprechende Rezept verrät. In Sachen Anzahl, Nutzwert und Stabilität der zusätzlichen Skills hat Mycroft noch den weitesten Weg bis zur alltäglichen Benutzbarkeit vor sich.

Dennoch ist es interessant, dem Open-Source-Sprachassistenten beim Werkeln zusehen zu können. Wer die Arbeit an Mycroft immateriell unterstützen will, kann in seinem Account unterhome.mycroft.ai über den Pfeil oben rechts die »Settings« öffnen und ganz unten bei »Open Dataset« erlauben, dass seine aufgenommenen Sprachdateien zum Training und zur weiteren Verbesserung der Mycroft-Spracherkennung genutzt werden – bei Amazon und Google hat man diese Wahl erst gar nicht.

Mycroft AI: Die Firma hinter dem Projekt

Der Mycroft Mark II kommt mit Display und verschließbarer Kamera


Der Open-Source-Sprachassistent ist spürbar noch in einer frühen Entwicklungsphase. Es bleibt zu hoffen, dass das Geschäftsmodell der Entwicklerfirma aufgeht. Denn sie will Mycroft zu einer ernsthaften offenen Alternative zu Google Assistant und Amazon Alexa entwickeln. Privatpersonen sowie Firmen sollen die Mycroft-Sprachsteuerung nutzen können, ohne private Daten zu einem Internet-Riesen hochzuladen. So beteiligt sich beispielsweise der Autohersteller Jaguar Land Rover an der Mycroft-Entwicklung, um zunächst einfache Funktionen wie Fensteröffner steuern zu können. In Zukunft soll die ganze Mycroft-AI lokal auf einem Rechner etwa im Auto laufen, um auch in Funklöchern komplexe Funktionen ausführen zu können.
> Fertige Mycroft-Geräte bietet die Firma auch an. Der Mycroft Mark I richtete sich in erster Linie an Entwickler – darin sitzen ein Raspberry Pi und ein Arduino-Board zur Ansteuerung der Lichter. Der Mycroft Mark II lässt sich derzeit über die Kickstarter-Plattform Indiegogo nur vorbestellen, soll aber hardwareseitig schon auf Augenhöhe mit Alexa & Co. sein. Sein Display kann die Zeit oder andere angefragte Informationen anzeigen, und er enthält eine Kamera (mit verschließbarer Linse) für künftige Videochats. Mit 190 US-Dollar ist das aber eher ein Angebot für Open-Source-Enthusiasten.


Fotos: CHIP Studios (Aufm., Intern.-Anschl.); Hersteller