Der Sprachassistent wandelt gesprochene Eingaben in Text um, verarbeitet diesen durch dieselbe Chat-Engine, die auch Ihre Textgespräche nutzen, und liest die Antwort vor. Dafür wird ein Spracherkennungs- und ein Sprachsynthese-Anbieter benötigt. Your Office AI ist hier anbieterunabhängig — Sie konfigurieren Deepgram, ein Google Cloud-Dienstkonto oder beides, und es gibt keinen hartcodierten Standard.
Es gibt keinen eingebauten Sprachanbieter. Es wird nichts gesprochen, bis ein Administrator mindestens eine Bridge konfiguriert. Wenn mehr als eine konfiguriert ist, wählt der Worker unter ihnen anhand einer kostengeordneten Fallback-Reihenfolge, nicht aufgrund einer festen Präferenz.
Der Sprach-Worker tritt einem LiveKit-Raum bei, transkribiert das Audio des Nutzers, sendet diesen Text an exakt dieselbe Chat-Engine, die das Dock verwendet — gleiches System-Prompt, gleiche Werkzeuge, gleicher Verlauf — und liest die Antwort vor. Da Sprache und Text in dieselbe Chat-Sitzung schreiben, können Sie mittendrin zwischen beiden wechseln.
| Anbieter | STT | TTS | Anmeldedaten |
|---|---|---|---|
| Deepgram | Nova-3 | Aura-2 | Ein API-Schlüssel |
| Google Cloud | Cloud Speech-to-Text v2 | Cloud Text-to-Speech | Dienstkonto-JSON-Schlüssel |
Deepgram ist der einfachste Weg: Ein einziger API-Schlüssel deckt sowohl Nova-3-STT als auch Aura-2-TTS ab.
Melden Sie sich bei der Deepgram-Konsole an und erstellen Sie einen API-Schlüssel. Deepgram bietet Spracherkennung (Nova-3) und Sprachsynthese (Aura-2) unter einem Schlüssel an, sodass eine einzige Anmeldeinformation die gesamte Pipeline abdeckt.
Öffnen Sie Einstellungen → Organisationen → Org-Einstellungen → Sprache & KI und fügen Sie den Deepgram-Schlüssel in die Sprachanbieter-Karte ein. Der Schlüssel wird verschlüsselt gespeichert und bei späteren Lesezugriffen geschwärzt.
Bei einem selbst gehosteten Deployment können Sie den Schlüssel stattdessen über die Umgebung an den Sprach-Bridge-Worker übergeben, zusammen mit den LiveKit-Verbindungsdaten, die zum Beitreten in Räume verwendet werden.
Google Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit einem Dienstkonto-Schlüssel, nicht mit einem einfachen Gemini-API-Schlüssel — der Gemini-Schlüssel authentifiziert nur die Generative Language API.
Erstellen Sie in der Google Cloud Console im Projekt, dem Ihre Google-Abrechnung gehört, ein Dienstkonto (z. B. cc-voice-bridge). Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit Application Default Credentials — einem Dienstkonto-Schlüssel — und nicht mit einem einfachen API-Schlüssel.
Vergeben Sie Cloud Speech-to-Text Client (roles/speech.client) und Cloud Text-to-Speech User (roles/cloudtts.client). Diese Rollen erlauben dem Konto, STT und TTS aufzurufen — und sonst nichts.
Aktivieren Sie speech.googleapis.com und texttospeech.googleapis.com unter APIs & Dienste → Bibliothek, falls noch nicht geschehen.
Generieren Sie einen JSON-Schlüssel für das Dienstkonto. Laden Sie ihn unter Einstellungen → Org-Einstellungen → Sprache & KI hoch (die Karte prüft die JSON-Struktur und schwärzt den privaten Schlüssel bei späteren Lesezugriffen), oder binden Sie ihn über GOOGLE_APPLICATION_CREDENTIALS an den Sprach-Worker für ein selbst gehostetes Deployment.
Cloud Speech v2 und Cloud TTS lehnen einen einfachen Gemini-API-Schlüssel ab. Sie benötigen Application Default Credentials — d. h. eine heruntergeladene Dienstkonto-JSON-Datei. Behandeln Sie diese JSON-Datei wie ein Passwort: Wer sie besitzt, kann STT und TTS auf Rechnung Ihres Projekts ausführen.
Der Sprachmodus (unter Org-Einstellungen → Sprache & KI) entscheidet, welche Bridge der Worker verwendet. Der wichtigste Punkt: Der Modus wählt unter den von Ihnen konfigurierten Anbietern aus — er bringt niemals einen eigenen Anbieter mit.
| Modus | Verhalten |
|---|---|
| Auto (empfohlen) | Wählt die günstigste konfigurierte Bridge, die noch volle Chat-Engine-Parität bietet, in Fallback-Reihenfolge: Deepgram → Google → eine Gemini Live Bridge als letzter Ausweg. Es handelt sich um ein kostengeordnetes Fallback, nicht um einen Standard-Anbieter. |
| Unified | Erzwingt die STT → Chat-Engine → TTS-Pipeline. Wählen Sie diesen Modus, wenn Sie bei fehlender Bridge-Konfiguration lieber einen deutlichen Fehler als ein stilles Fallback möchten. |
| Realtime Bridge | Setzt ein Gemini Live Realtime-Modell als Audio-Transport ein, an das das Chat-Engine-Gehirn angebunden ist. Nützlich, wenn Sie das Realtime-Modell gezielt in der Pipeline haben möchten. |
Im Auto-Modus stürzt der Worker nie ab, wenn eine Anbieter-Anmeldeinformation fehlt, unlesbar oder nicht autorisiert ist — er protokolliert den Fehler und fällt zur nächsten Bridge in der Reihenfolge durch. Ein veralteter Google-Schlüssel führt zu "Sprache funktioniert noch" statt "Sprache ist kaputt".
Streaming Cloud Speech-to-Text v2 kostet etwa 0,024 $ pro Audiominute, und Cloud TTS Neural2-Stimmen liegen bei rund 16 $ pro Million Zeichen — Sie zahlen nur für das Audio, das Sie tatsächlich transkribieren oder aussprechen, ohne Kosten für inaktive Sitzungen. Deepgram wird ähnlich nach Minute / Zeichen abgerechnet. Wie bei jedem Anbieter legen Administratoren organisationsweite Ausgabenlimits fest, und ein Limit von 0 deaktiviert Sprache, anstatt das Limit aufzuheben.
See the Vereinte Sprache + Chat guide for how voice behaves in the app, then finish the setup chain with Transaktionale E-Mails.