🎙️Admin & Settings

Vereinte Sprache + Text-Chat

In Your Office AI läuft Sprache immer über dieselbe Chat-Engine wie Text, sodass Sprechen dieselben Werkzeuge, denselben Kontext und dasselbe Gedächtnis hat wie Tippen. Diese Seite erklärt, wie die Sprach-Pipeline gewählt wird und wie die benötigten Zugangsdaten bereitgestellt werden.

Ein Gehirn für Sprache und Text

Your Office AI behandelt Sprache als „vereint": Jeder Sprachpfad läuft durch die Chat-Engine, sodass eine gesprochene Anfrage #-Anhänge, @-Erwähnungen, Websuche, Dateien und Gedächtnis genau wie eine getippte nutzen kann. Sprache und Text teilen ein Gehirn, sodass Sprechen immer den vollen Funktionsumfang der Plattform bietet — diese Vollparitätsgarantie ist in die Plattform eingebaut.

Die vereinte Pipeline sieht so aus:

user audio → speech-to-text → chat engine (your normal LLM + tools + memory) → text-to-speech → user audio

🗣️Sie sprechenSprach- oder Avatar-Modus

🎙️Sprache-zu-TextDeepgram / Google

🧠Chat-EngineIhr LLM + Werkzeuge + Gedächtnis

🔊Text-zu-SpracheGesprochene Antwort

Sprache läuft über dieselbe Chat-Engine wie Text — volle Parität für Werkzeuge, #-Kontext und Gedächtnis.

Da Sprache und Text in dieselbe Chat-Sitzung schreiben, bleibt der Kontext beim Wechsel mitten im Gespräch automatisch erhalten.

Die zwei Pipelines

Unter der Haube können zwei Pipelines die Paritätsregel erfüllen. Beide nutzen die Chat-Engine als Gehirn; sie unterscheiden sich darin, wie Audio ein- und austritt.

Pipeline	Wie sie funktioniert	Anbieter
Bridge	Sprache-zu-Text → Chat-Engine → Text-zu-Sprache.	Deepgram (Nova-3 STT + Aura-2 TTS) oder Google (Cloud Speech v2 + Cloud TTS).
Realtime-Bridge	Gemini Live als Audio-Transport, mit der Chat-Engine als Denkschicht verbunden. Wird als letzter Ausweg genutzt.	Gemini Live (ein Realtime-API-Schlüssel).

Modi

Der Modus, den Sie in den Organisationseinstellungen wählen, gibt dem Worker vor, wie er eine Pipeline auswählt.

Modus	Verhalten
Auto (empfohlen)	Wählt die zuverlässigste Pipeline, die noch volle Parität bietet: zuerst Deepgram, dann Google, und nur als letzten Ausweg automatisch eine Gemini Live Realtime-Bridge. Wenn kein Anbieter konfiguriert ist, gibt es eine klare gesprochene Meldung, damit Sie immer wissen, dass Sprache durch die vollständige Chat-Engine geleitet wird.
Nur vereint	Fixiert die Bridge (Deepgram oder Google) als einzigen Transport, damit ein Admin, der sich dafür entscheidet, eine klare, explizite Meldung erhält, wenn kein Bridge-Anbieter konfiguriert ist, statt eines stillen Fallbacks.

💡

Welchen Modus soll ich wählen?

Auto passt für fast jeden — es hält immer volle Chat-Engine-Parität und weicht nur automatisch auf die Gemini Live Realtime-Bridge aus, wenn kein Bridge-Anbieter konfiguriert ist. Wählen Sie Nur vereint, wenn Sie die Bridge als einzigen Transport haben möchten, mit einem lauten Fehler statt einem stillen Fallback. Die Realtime-Bridge lässt sich nicht mehr als eigenständiger Modus fixieren — ihr Audio-Pfad erwies sich als unzuverlässig, daher läuft sie heute nur noch automatisch als Fallback innerhalb von Auto.

Warum ein Service-Account (für die Google-Bridge)

Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit einem Google Cloud Service-Account-Schlüssel. Sie lehnen einen einfachen Gemini API-Schlüssel ab (der nur die Generative Language API authentifiziert). Wenn Sie Google nicht für die Bridge verwenden möchten, konfigurieren Sie stattdessen einen Deepgram-Schlüssel — die Bridge akzeptiert beide Anbieter.

Einen Google-Schlüssel bereitstellen — ca. 3 Minuten in GCP

💡

Das machen Sie nur einmal

Derselbe JSON-Schlüssel funktioniert für jede Sprachsitzung in der Organisation. Rotieren Sie ihn in dem Rhythmus, den Ihre Sicherheitsrichtlinie vorschreibt — das Hochladen eines neuen Schlüssels in der Benutzeroberfläche ersetzt den alten atomar.

GCP IAM-Dienstkonten-Seite öffnen
Wechseln Sie in der Google Cloud Console zum Projekt, das Ihre Google-Abrechnung besitzt, und öffnen Sie IAM & Verwaltung → Dienstkonten. Klicken Sie auf Dienstkonto erstellen. Geben Sie ihm einen einprägsamen Namen wie cc-voice-bridge — der Name wird nur für Ihr eigenes Audit-Log verwendet.
Zwei Rollen vergeben
Weisen Sie dem Dienstkonto diese zwei vordefinierten Rollen zu: Cloud Speech-to-Text Client (roles/speech.client) und Cloud Text-to-Speech User (roles/cloudtts.client). Beide sind Least-Privilege — das Konto kann nur STT und TTS aufrufen, nichts anderes in Ihrem Projekt.
Die zwei APIs aktivieren
Aktivieren Sie unter APIs & Dienste → Bibliothek speech.googleapis.com (Cloud Speech-to-Text API) und texttospeech.googleapis.com (Cloud Text-to-Speech API). Wenn sie bereits aktiviert sind, wird dies auf den Seiten angezeigt — keine Aktion erforderlich.
Den JSON-Schlüssel erstellen und herunterladen
Öffnen Sie auf der Dienstkonto-Detailseite die Registerkarte Schlüssel und klicken Sie auf Schlüssel hinzufügen → Neuen Schlüssel erstellen → JSON. Eine Datei wie cc-voice-bridge-<zufällig>.json wird auf Ihren Computer heruntergeladen. Behandeln Sie ihn wie ein Passwort: Jeder, der ihn hat, kann STT und TTS auf Ihre Projektrechnung aufrufen.
In Your Office AI hochladen
Öffnen Sie Einstellungen → Organisationen → Organisationseinstellungen → Sprache & KI. Klicken Sie in der Cloud-Sprachkarte auf Service-Account-JSON hochladen und wählen Sie die soeben heruntergeladene Datei — oder fügen Sie deren Inhalt ein. Die Karte validiert die JSON-Form clientseitig; der private Schlüssel wird bei nachfolgenden Lesevorgängen geschwärzt.
Einen Modus wählen
Auto wird empfohlen: Der Worker wählt die zuverlässigste Pipeline, die noch volle Chat-Engine-Parität bietet, mit Präferenz für Deepgram, dann Google, und weicht erst als letzten Ausweg automatisch auf eine Gemini Live-Bridge aus. Wählen Sie Nur vereint, wenn Sie einen expliziten Fehler wünschen, wenn kein Bridge-Anbieter konfiguriert ist.

Sprache mit Avatar

Sprache kann mit einer animierten Avatar-Kachel kombiniert werden — Simli und Tavus sind beide unterstützte Avatar-Anbieter — für einen Avatar-Eingabemodus im Chat. Der Sprachkatalog erkennt auch eine breite Palette von STT-, TTS- und Avatar-Anbietern, die Admins konfigurieren können.

Überprüfen, ob die Pipeline aktiv ist

Nach dem Hochladen der Zugangsdaten und dem Starten einer neuen Sprachsitzung zeigt die Statuszeile oben auf der Karte die aktive Pipeline sowie die abgeleitete Google-Projekt-ID und Service-Account-E-Mail (bei Verwendung der Google-Bridge):

✅

Aktiver Zustand

Vereinte Sprache + Text-Chat — aktiv. Sprache wird durch Ihr normales Chat-Backend geleitet (dasselbe LLM, Werkzeuge und Gedächtnis).

Zugangsdaten entfernen oder rotieren

Die Karte hat eine Aktion Zugangsdaten entfernen, die das gespeicherte JSON, die Projekt-ID, die Client-E-Mail und das konfigurierte Flag in einer Transaktion löscht. Zum Rotieren erstellen Sie einen neuen JSON-Schlüssel in GCP, laden ihn in der Benutzeroberfläche hoch und widerrufen den alten Schlüssel in der GCP-Konsole. Änderungen treten bei der nächsten Sprachsitzung in Kraft — kein Neustart erforderlich.

Kostenhinweise

Mit der Bridge zahlen Sie pro Minute Sprache-zu-Text und pro Zeichen Text-zu-Sprache, und nur für das Audio, das Sie tatsächlich transkribieren und synthetisieren — es gibt keine Leerlauf-Sitzungskosten. Deepgram ist im Allgemeinen der günstigste Bridge-Anbieter; die Gemini Live Realtime-Bridge wird zu Realtime-Tarifen abgerechnet und ist für den Fall reserviert, dass kein Bridge-Anbieter verfügbar ist.

Sicherheit

ℹ️

Ihr Service-Account-Schlüssel bleibt geschützt

Das Service-Account-JSON ist sensibel: Es wird serverseitig gespeichert, und die Admin-API schwärzt es bei jedem Lesevorgang nach dem ersten Hochladen — nur die abgeleitete Projekt-ID und Client-E-Mail werden zurückgegeben. Der Worker ruft das vollständige JSON über einen privaten Netzwerkpfad ab, der auf Ihren Mandanten beschränkt ist, sodass der Schlüssel die vertrauenswürdige Infrastruktur niemals verlässt.

← ZurückOrganization Settings Weiter →Members & Roles