🗣️ Infrastruktur

Sprachanbieter

Der Sprachassistent wandelt gesprochene Eingaben in Text um, verarbeitet diesen durch dieselbe Chat-Engine, die auch Ihre Textgespräche nutzen, und liest die Antwort vor. Dafür wird ein Spracherkennungs- und ein Sprachsynthese-Anbieter benötigt. Your Office AI ist hier anbieterunabhängig — Sie konfigurieren Deepgram, ein Google Cloud-Dienstkonto oder beides, und es gibt keinen hartcodierten Standard.

ℹ️
Kein Standard-Anbieter

Es gibt keinen eingebauten Sprachanbieter. Es wird nichts gesprochen, bis ein Administrator mindestens eine Bridge konfiguriert. Wenn mehr als eine konfiguriert ist, wählt der Worker unter ihnen anhand einer kostengeordneten Fallback-Reihenfolge, nicht aufgrund einer festen Präferenz.

Wie die Sprach-Bridge funktioniert

Der Sprach-Worker tritt einem LiveKit-Raum bei, transkribiert das Audio des Nutzers, sendet diesen Text an exakt dieselbe Chat-Engine, die das Dock verwendet — gleiches System-Prompt, gleiche Werkzeuge, gleicher Verlauf — und liest die Antwort vor. Da Sprache und Text in dieselbe Chat-Sitzung schreiben, können Sie mittendrin zwischen beiden wechseln.

🎙️Nutzer-AudioÜber LiveKit
📝STTDeepgram / Google
🧠Chat-EngineGleiches Gehirn wie Text
🔊TTSDeepgram / Google
🗣️Gesprochene AntwortZurück an den Nutzer
Eine Chat-Engine, zwei Eingabemodi — Sprache und Text teilen dieselbe Sitzung.

Die beiden Anbieter

AnbieterSTTTTSAnmeldedaten
DeepgramNova-3Aura-2Ein API-Schlüssel
Google CloudCloud Speech-to-Text v2Cloud Text-to-SpeechDienstkonto-JSON-Schlüssel

Option A — Deepgram

Deepgram ist der einfachste Weg: Ein einziger API-Schlüssel deckt sowohl Nova-3-STT als auch Aura-2-TTS ab.

  1. Deepgram-API-Schlüssel erstellen

    Melden Sie sich bei der Deepgram-Konsole an und erstellen Sie einen API-Schlüssel. Deepgram bietet Spracherkennung (Nova-3) und Sprachsynthese (Aura-2) unter einem Schlüssel an, sodass eine einzige Anmeldeinformation die gesamte Pipeline abdeckt.

  2. In Your Office AI eintragen

    Öffnen Sie Einstellungen → Organisationen → Org-Einstellungen → Sprache & KI und fügen Sie den Deepgram-Schlüssel in die Sprachanbieter-Karte ein. Der Schlüssel wird verschlüsselt gespeichert und bei späteren Lesezugriffen geschwärzt.

  3. Oder am Sprach-Worker setzen

    Bei einem selbst gehosteten Deployment können Sie den Schlüssel stattdessen über die Umgebung an den Sprach-Bridge-Worker übergeben, zusammen mit den LiveKit-Verbindungsdaten, die zum Beitreten in Räume verwendet werden.

Option B — Google Cloud-Dienstkonto

Google Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit einem Dienstkonto-Schlüssel, nicht mit einem einfachen Gemini-API-Schlüssel — der Gemini-Schlüssel authentifiziert nur die Generative Language API.

  1. GCP-Dienstkonto erstellen

    Erstellen Sie in der Google Cloud Console im Projekt, dem Ihre Google-Abrechnung gehört, ein Dienstkonto (z. B. cc-voice-bridge). Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit Application Default Credentials — einem Dienstkonto-Schlüssel — und nicht mit einem einfachen API-Schlüssel.

  2. Zwei Least-Privilege-Rollen vergeben

    Vergeben Sie Cloud Speech-to-Text Client (roles/speech.client) und Cloud Text-to-Speech User (roles/cloudtts.client). Diese Rollen erlauben dem Konto, STT und TTS aufzurufen — und sonst nichts.

  3. Die beiden APIs aktivieren

    Aktivieren Sie speech.googleapis.com und texttospeech.googleapis.com unter APIs & Dienste → Bibliothek, falls noch nicht geschehen.

  4. JSON-Schlüssel erstellen und hochladen

    Generieren Sie einen JSON-Schlüssel für das Dienstkonto. Laden Sie ihn unter Einstellungen → Org-Einstellungen → Sprache & KI hoch (die Karte prüft die JSON-Struktur und schwärzt den privaten Schlüssel bei späteren Lesezugriffen), oder binden Sie ihn über GOOGLE_APPLICATION_CREDENTIALS an den Sprach-Worker für ein selbst gehostetes Deployment.

⚠️
Dienstkonto, kein API-Schlüssel

Cloud Speech v2 und Cloud TTS lehnen einen einfachen Gemini-API-Schlüssel ab. Sie benötigen Application Default Credentials — d. h. eine heruntergeladene Dienstkonto-JSON-Datei. Behandeln Sie diese JSON-Datei wie ein Passwort: Wer sie besitzt, kann STT und TTS auf Rechnung Ihres Projekts ausführen.

Wie Anbieter den Sprachmodi zugeordnet werden

Der Sprachmodus (unter Org-Einstellungen → Sprache & KI) entscheidet, welche Bridge der Worker verwendet. Der wichtigste Punkt: Der Modus wählt unter den von Ihnen konfigurierten Anbietern aus — er bringt niemals einen eigenen Anbieter mit.

ModusVerhalten
Auto (empfohlen)Wählt die günstigste konfigurierte Bridge, die noch volle Chat-Engine-Parität bietet, in Fallback-Reihenfolge: Deepgram → Google → eine Gemini Live Bridge als letzter Ausweg. Es handelt sich um ein kostengeordnetes Fallback, nicht um einen Standard-Anbieter.
UnifiedErzwingt die STT → Chat-Engine → TTS-Pipeline. Wählen Sie diesen Modus, wenn Sie bei fehlender Bridge-Konfiguration lieber einen deutlichen Fehler als ein stilles Fallback möchten.
Realtime BridgeSetzt ein Gemini Live Realtime-Modell als Audio-Transport ein, an das das Chat-Engine-Gehirn angebunden ist. Nützlich, wenn Sie das Realtime-Modell gezielt in der Pipeline haben möchten.
💡
Auto degradiert sich kontrolliert

Im Auto-Modus stürzt der Worker nie ab, wenn eine Anbieter-Anmeldeinformation fehlt, unlesbar oder nicht autorisiert ist — er protokolliert den Fehler und fällt zur nächsten Bridge in der Reihenfolge durch. Ein veralteter Google-Schlüssel führt zu "Sprache funktioniert noch" statt "Sprache ist kaputt".

Kostenhinweise

Streaming Cloud Speech-to-Text v2 kostet etwa 0,024 $ pro Audiominute, und Cloud TTS Neural2-Stimmen liegen bei rund 16 $ pro Million Zeichen — Sie zahlen nur für das Audio, das Sie tatsächlich transkribieren oder aussprechen, ohne Kosten für inaktive Sitzungen. Deepgram wird ähnlich nach Minute / Zeichen abgerechnet. Wie bei jedem Anbieter legen Administratoren organisationsweite Ausgabenlimits fest, und ein Limit von 0 deaktiviert Sprache, anstatt das Limit aufzuheben.

ℹ️
Weiter

See the Vereinte Sprache + Chat guide for how voice behaves in the app, then finish the setup chain with Transaktionale E-Mails.