In Your Office AI läuft Sprache immer über dieselbe Chat-Engine wie Text, sodass Sprechen dieselben Werkzeuge, denselben Kontext und dasselbe Gedächtnis hat wie Tippen. Diese Seite erklärt, wie die Sprach-Pipeline gewählt wird und wie die benötigten Zugangsdaten bereitgestellt werden.
Your Office AI behandelt Sprache als „vereint": Jeder Sprachpfad läuft durch die Chat-Engine, sodass eine gesprochene Anfrage #-Anhänge, @-Erwähnungen, Websuche, Dateien und Gedächtnis genau wie eine getippte nutzen kann. Sprache und Text teilen ein Gehirn, sodass Sprechen immer den vollen Funktionsumfang der Plattform bietet — diese Vollparitätsgarantie ist in die Plattform eingebaut.
Die vereinte Pipeline sieht so aus:
user audio → speech-to-text → chat engine (your normal LLM + tools + memory) → text-to-speech → user audio
Da Sprache und Text in dieselbe Chat-Sitzung schreiben, bleibt der Kontext beim Wechsel mitten im Gespräch automatisch erhalten.
Unter der Haube können zwei Pipelines die Paritätsregel erfüllen. Beide nutzen die Chat-Engine als Gehirn; sie unterscheiden sich darin, wie Audio ein- und austritt.
| Pipeline | Wie sie funktioniert | Anbieter |
|---|---|---|
| Bridge | Sprache-zu-Text → Chat-Engine → Text-zu-Sprache. | Deepgram (Nova-3 STT + Aura-2 TTS) oder Google (Cloud Speech v2 + Cloud TTS). |
| Realtime-Bridge | Gemini Live als Audio-Transport, mit der Chat-Engine als Denkschicht verbunden. Wird als letzter Ausweg genutzt. | Gemini Live (ein Realtime-API-Schlüssel). |
Der Modus, den Sie in den Organisationseinstellungen wählen, gibt dem Worker vor, wie er eine Pipeline auswählt.
| Modus | Verhalten |
|---|---|
| Auto (empfohlen) | Wählt die günstigste Pipeline, die noch volle Parität bietet, in dieser Reihenfolge: Deepgram, dann Google, dann eine Gemini Live Realtime-Bridge. Wenn kein Anbieter konfiguriert ist, gibt es eine klare gesprochene Meldung, damit Sie immer wissen, dass Sprache durch die vollständige Chat-Engine geleitet wird. |
| Nur vereint | Fixiert die Bridge (Deepgram oder Google) als einzigen Transport, damit ein Admin, der sich dafür entscheidet, eine klare, explizite Meldung erhält, wenn kein Bridge-Anbieter konfiguriert ist, statt eines stillen Fallbacks. |
| Realtime-Bridge | Fixiert Gemini Live als Audio-Transport mit dem Chat-Engine-Gehirn verbunden — derselbe volle Funktionsumfang, zu Realtime-Kosten. |
Auto passt für fast jeden — es hält immer volle Chat-Engine-Parität und wählt einfach den kosteneffizientesten Transport. Wählen Sie Nur vereint, wenn Sie die Bridge als einzigen Transport haben möchten, oder Realtime-Bridge, um Gemini Live als Audio-Transport mit dem Chat-Engine-Gehirn zu fixieren.
Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit einem Google Cloud Service-Account-Schlüssel. Sie lehnen einen einfachen Gemini API-Schlüssel ab (der nur die Generative Language API authentifiziert). Wenn Sie Google nicht für die Bridge verwenden möchten, konfigurieren Sie stattdessen einen Deepgram-Schlüssel — die Bridge akzeptiert beide Anbieter.
Derselbe JSON-Schlüssel funktioniert für jede Sprachsitzung in der Organisation. Rotieren Sie ihn in dem Rhythmus, den Ihre Sicherheitsrichtlinie vorschreibt — das Hochladen eines neuen Schlüssels in der Benutzeroberfläche ersetzt den alten atomar.
Wechseln Sie in der Google Cloud Console zum Projekt, das Ihre Google-Abrechnung besitzt, und öffnen Sie IAM & Verwaltung → Dienstkonten. Klicken Sie auf Dienstkonto erstellen. Geben Sie ihm einen einprägsamen Namen wie cc-voice-bridge — der Name wird nur für Ihr eigenes Audit-Log verwendet.
Weisen Sie dem Dienstkonto diese zwei vordefinierten Rollen zu: Cloud Speech-to-Text Client (roles/speech.client) und Cloud Text-to-Speech User (roles/cloudtts.client). Beide sind Least-Privilege — das Konto kann nur STT und TTS aufrufen, nichts anderes in Ihrem Projekt.
Aktivieren Sie unter APIs & Dienste → Bibliothek speech.googleapis.com (Cloud Speech-to-Text API) und texttospeech.googleapis.com (Cloud Text-to-Speech API). Wenn sie bereits aktiviert sind, wird dies auf den Seiten angezeigt — keine Aktion erforderlich.
Öffnen Sie auf der Dienstkonto-Detailseite die Registerkarte Schlüssel und klicken Sie auf Schlüssel hinzufügen → Neuen Schlüssel erstellen → JSON. Eine Datei wie cc-voice-bridge-<zufällig>.json wird auf Ihren Computer heruntergeladen. Behandeln Sie ihn wie ein Passwort: Jeder, der ihn hat, kann STT und TTS auf Ihre Projektrechnung aufrufen.
Öffnen Sie Einstellungen → Organisationen → Organisationseinstellungen → Sprache & KI. Klicken Sie in der Cloud-Sprachkarte auf Service-Account-JSON hochladen und wählen Sie die soeben heruntergeladene Datei — oder fügen Sie deren Inhalt ein. Die Karte validiert die JSON-Form clientseitig; der private Schlüssel wird bei nachfolgenden Lesevorgängen geschwärzt.
Auto wird empfohlen: Der Worker wählt die günstigste Pipeline, die noch volle Chat-Engine-Parität bietet, mit Präferenz für Deepgram, dann Google, dann eine Gemini Live-Bridge. Wählen Sie Nur vereint, wenn Sie einen expliziten Fehler wünschen, wenn kein Bridge-Anbieter konfiguriert ist, oder Realtime-Bridge, um Gemini Live als Audio-Transport mit dem Chat-Engine-Gehirn zu fixieren.
Sprache kann mit einer animierten Avatar-Kachel kombiniert werden, angetrieben von Simli, für einen Avatar-Eingabemodus im Chat. Der Sprachkatalog erkennt auch eine breite Palette von STT-, TTS- und Avatar-Anbietern, die Admins konfigurieren können; Simli ist der produktseitige Avatar.
Nach dem Hochladen der Zugangsdaten und dem Starten einer neuen Sprachsitzung zeigt die Statuszeile oben auf der Karte die aktive Pipeline sowie die abgeleitete Google-Projekt-ID und Service-Account-E-Mail (bei Verwendung der Google-Bridge):
Vereinte Sprache + Text-Chat — aktiv. Sprache wird durch Ihr normales Chat-Backend geleitet (dasselbe LLM, Werkzeuge und Gedächtnis).
Die Karte hat eine Aktion Zugangsdaten entfernen, die das gespeicherte JSON, die Projekt-ID, die Client-E-Mail und das konfigurierte Flag in einer Transaktion löscht. Zum Rotieren erstellen Sie einen neuen JSON-Schlüssel in GCP, laden ihn in der Benutzeroberfläche hoch und widerrufen den alten Schlüssel in der GCP-Konsole. Änderungen treten bei der nächsten Sprachsitzung in Kraft — kein Neustart erforderlich.
Mit der Bridge zahlen Sie pro Minute Sprache-zu-Text und pro Zeichen Text-zu-Sprache, und nur für das Audio, das Sie tatsächlich transkribieren und synthetisieren — es gibt keine Leerlauf-Sitzungskosten. Deepgram ist im Allgemeinen der günstigste Bridge-Anbieter; die Gemini Live Realtime-Bridge wird zu Realtime-Tarifen abgerechnet und ist für den Fall reserviert, dass kein Bridge-Anbieter verfügbar ist.
Das Service-Account-JSON ist sensibel, und YOffice hält es sicher: Es wird serverseitig gespeichert und im Ruhezustand auf dieselbe Weise verschlüsselt wie andere Mandantengeheimnisse, und die Admin-API schwärzt den privaten Schlüssel bei jedem Lesevorgang — nur die abgeleitete Projekt-ID und Client-E-Mail werden zurückgegeben. Der Worker ruft das vollständige JSON über einen privaten Netzwerkpfad ab, der auf Ihren Mandanten beschränkt ist, sodass der Schlüssel die vertrauenswürdige Infrastruktur niemals verlässt.