🗣️ Infrastruktur

Sprachanbieter

Der Sprachassistent wandelt gesprochene Eingaben in Text um, verarbeitet diesen durch dieselbe Chat-Engine, die auch Ihre Textgespräche nutzen, und liest die Antwort vor. Dafür wird ein Spracherkennungs- und ein Sprachsynthese-Anbieter benötigt. Your Office AI ist hier anbieterunabhängig — Sie konfigurieren Deepgram, ein Google Cloud-Dienstkonto oder beides, und es gibt keinen hartcodierten Standard.

ℹ️

Kein Standard-Anbieter

Es gibt keinen eingebauten Sprachanbieter. Es wird nichts gesprochen, bis ein Administrator mindestens eine Bridge konfiguriert. Wenn mehr als eine konfiguriert ist, wählt der Worker unter ihnen anhand einer kostengeordneten Fallback-Reihenfolge, nicht aufgrund einer festen Präferenz.

Wie die Sprach-Bridge funktioniert

Der Sprach-Worker tritt einem LiveKit-Raum bei, transkribiert das Audio des Nutzers, sendet diesen Text an exakt dieselbe Chat-Engine, die das Dock verwendet — gleiches System-Prompt, gleiche Werkzeuge, gleicher Verlauf — und liest die Antwort vor. Da Sprache und Text in dieselbe Chat-Sitzung schreiben, können Sie mittendrin zwischen beiden wechseln.

🎙️Nutzer-AudioÜber LiveKit

📝STTDeepgram / Google

🧠Chat-EngineGleiches Gehirn wie Text

🔊TTSDeepgram / Google

🗣️Gesprochene AntwortZurück an den Nutzer

Eine Chat-Engine, zwei Eingabemodi — Sprache und Text teilen dieselbe Sitzung.

Die beiden Anbieter

Anbieter	STT	TTS	Anmeldedaten
Deepgram	Nova-3	Aura-2	Ein API-Schlüssel
Google Cloud	Cloud Speech-to-Text v2	Cloud Text-to-Speech	Dienstkonto-JSON-Schlüssel

Option A — Deepgram

Deepgram ist der einfachste Weg: Ein einziger API-Schlüssel deckt sowohl Nova-3-STT als auch Aura-2-TTS ab.

Deepgram-API-Schlüssel erstellen
Melden Sie sich bei der Deepgram-Konsole an und erstellen Sie einen API-Schlüssel. Deepgram bietet Spracherkennung (Nova-3) und Sprachsynthese (Aura-2) unter einem Schlüssel an, sodass eine einzige Anmeldeinformation die gesamte Pipeline abdeckt.
In Your Office AI eintragen
Öffnen Sie Einstellungen → Organisationen → Org-Einstellungen → Sprache & KI und fügen Sie den Deepgram-Schlüssel in die Sprachanbieter-Karte ein. Der Schlüssel wird verschlüsselt gespeichert und bei späteren Lesezugriffen geschwärzt.
Oder am Sprach-Worker setzen
Bei einem selbst gehosteten Deployment können Sie den Schlüssel stattdessen über die Umgebung an den Sprach-Bridge-Worker übergeben, zusammen mit den LiveKit-Verbindungsdaten, die zum Beitreten in Räume verwendet werden.

Option B — Google Cloud-Dienstkonto

Google Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit einem Dienstkonto-Schlüssel, nicht mit einem einfachen Gemini-API-Schlüssel — der Gemini-Schlüssel authentifiziert nur die Generative Language API.

GCP-Dienstkonto erstellen
Erstellen Sie in der Google Cloud Console im Projekt, dem Ihre Google-Abrechnung gehört, ein Dienstkonto (z. B. cc-voice-bridge). Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit Application Default Credentials — einem Dienstkonto-Schlüssel — und nicht mit einem einfachen API-Schlüssel.
Zwei Least-Privilege-Rollen vergeben
Vergeben Sie Cloud Speech-to-Text Client (roles/speech.client) und Cloud Text-to-Speech User (roles/cloudtts.client). Diese Rollen erlauben dem Konto, STT und TTS aufzurufen — und sonst nichts.
Die beiden APIs aktivieren
Aktivieren Sie speech.googleapis.com und texttospeech.googleapis.com unter APIs & Dienste → Bibliothek, falls noch nicht geschehen.
JSON-Schlüssel erstellen und hochladen
Generieren Sie einen JSON-Schlüssel für das Dienstkonto. Laden Sie ihn unter Einstellungen → Org-Einstellungen → Sprache & KI hoch (die Karte prüft die JSON-Struktur und schwärzt den privaten Schlüssel bei späteren Lesezugriffen), oder binden Sie ihn über GOOGLE_APPLICATION_CREDENTIALS an den Sprach-Worker für ein selbst gehostetes Deployment.

⚠️

Dienstkonto, kein API-Schlüssel

Cloud Speech v2 und Cloud TTS lehnen einen einfachen Gemini-API-Schlüssel ab. Sie benötigen Application Default Credentials — d. h. eine heruntergeladene Dienstkonto-JSON-Datei. Behandeln Sie diese JSON-Datei wie ein Passwort: Wer sie besitzt, kann STT und TTS auf Rechnung Ihres Projekts ausführen.

Wie Anbieter den Sprachmodi zugeordnet werden

Der Sprachmodus (unter Org-Einstellungen → Sprache & KI) entscheidet, welche Bridge der Worker verwendet. Der wichtigste Punkt: Der Modus wählt unter den von Ihnen konfigurierten Anbietern aus — er bringt niemals einen eigenen Anbieter mit.

Modus	Verhalten
Auto (empfohlen)	Wählt die günstigste konfigurierte Bridge, die noch volle Chat-Engine-Parität bietet, in Fallback-Reihenfolge: Deepgram → Google → eine Gemini Live Bridge als letzter Ausweg. Es handelt sich um ein kostengeordnetes Fallback, nicht um einen Standard-Anbieter.
Unified	Erzwingt die STT → Chat-Engine → TTS-Pipeline. Wählen Sie diesen Modus, wenn Sie bei fehlender Bridge-Konfiguration lieber einen deutlichen Fehler als ein stilles Fallback möchten.

💡

Auto degradiert sich kontrolliert

Im Auto-Modus stürzt der Worker nie ab, wenn eine Anbieter-Anmeldeinformation fehlt, unlesbar oder nicht autorisiert ist — er protokolliert den Fehler und fällt zur nächsten Bridge in der Reihenfolge durch. Ein veralteter Google-Schlüssel führt zu "Sprache funktioniert noch" statt "Sprache ist kaputt".

Kostenhinweise

Streaming Cloud Speech-to-Text v2 kostet etwa 0,024 $ pro Audiominute, und Cloud TTS Neural2-Stimmen liegen bei rund 16 $ pro Million Zeichen — Sie zahlen nur für das Audio, das Sie tatsächlich transkribieren oder aussprechen, ohne Kosten für inaktive Sitzungen. Deepgram wird ähnlich nach Minute / Zeichen abgerechnet. Wie bei jedem Anbieter legen Administratoren organisationsweite Ausgabenlimits fest, und ein Limit von 0 deaktiviert Sprache, anstatt das Limit aufzuheben.

ℹ️

Weiter

Lesen Sie die Vereinte Sprache + Chat-Anleitung, um zu erfahren, wie Sprache in der App funktioniert, und schließen Sie dann die Setup-Kette mit Transaktionale E-Mails ab.

← ZurückOAuth & integrations Weiter →Transactional email