🎙️Admin & Settings

Vereinte Sprache + Text-Chat

In Your Office AI läuft Sprache immer über dieselbe Chat-Engine wie Text, sodass Sprechen dieselben Werkzeuge, denselben Kontext und dasselbe Gedächtnis hat wie Tippen. Diese Seite erklärt, wie die Sprach-Pipeline gewählt wird und wie die benötigten Zugangsdaten bereitgestellt werden.

Ein Gehirn für Sprache und Text

Your Office AI behandelt Sprache als „vereint": Jeder Sprachpfad läuft durch die Chat-Engine, sodass eine gesprochene Anfrage #-Anhänge, @-Erwähnungen, Websuche, Dateien und Gedächtnis genau wie eine getippte nutzen kann. Sprache und Text teilen ein Gehirn, sodass Sprechen immer den vollen Funktionsumfang der Plattform bietet — diese Vollparitätsgarantie ist in die Plattform eingebaut.

Die vereinte Pipeline sieht so aus:

user audio → speech-to-text → chat engine (your normal LLM + tools + memory) → text-to-speech → user audio
🗣️Sie sprechenSprach- oder Avatar-Modus
🎙️Sprache-zu-TextDeepgram / Google
🧠Chat-EngineIhr LLM + Werkzeuge + Gedächtnis
🔊Text-zu-SpracheGesprochene Antwort
Sprache läuft über dieselbe Chat-Engine wie Text — volle Parität für Werkzeuge, #-Kontext und Gedächtnis.

Da Sprache und Text in dieselbe Chat-Sitzung schreiben, bleibt der Kontext beim Wechsel mitten im Gespräch automatisch erhalten.

Die zwei Pipelines

Unter der Haube können zwei Pipelines die Paritätsregel erfüllen. Beide nutzen die Chat-Engine als Gehirn; sie unterscheiden sich darin, wie Audio ein- und austritt.

PipelineWie sie funktioniertAnbieter
BridgeSprache-zu-Text → Chat-Engine → Text-zu-Sprache.Deepgram (Nova-3 STT + Aura-2 TTS) oder Google (Cloud Speech v2 + Cloud TTS).
Realtime-BridgeGemini Live als Audio-Transport, mit der Chat-Engine als Denkschicht verbunden. Wird als letzter Ausweg genutzt.Gemini Live (ein Realtime-API-Schlüssel).

Modi

Der Modus, den Sie in den Organisationseinstellungen wählen, gibt dem Worker vor, wie er eine Pipeline auswählt.

ModusVerhalten
Auto (empfohlen)Wählt die günstigste Pipeline, die noch volle Parität bietet, in dieser Reihenfolge: Deepgram, dann Google, dann eine Gemini Live Realtime-Bridge. Wenn kein Anbieter konfiguriert ist, gibt es eine klare gesprochene Meldung, damit Sie immer wissen, dass Sprache durch die vollständige Chat-Engine geleitet wird.
Nur vereintFixiert die Bridge (Deepgram oder Google) als einzigen Transport, damit ein Admin, der sich dafür entscheidet, eine klare, explizite Meldung erhält, wenn kein Bridge-Anbieter konfiguriert ist, statt eines stillen Fallbacks.
Realtime-BridgeFixiert Gemini Live als Audio-Transport mit dem Chat-Engine-Gehirn verbunden — derselbe volle Funktionsumfang, zu Realtime-Kosten.
💡
Welchen Modus soll ich wählen?

Auto passt für fast jeden — es hält immer volle Chat-Engine-Parität und wählt einfach den kosteneffizientesten Transport. Wählen Sie Nur vereint, wenn Sie die Bridge als einzigen Transport haben möchten, oder Realtime-Bridge, um Gemini Live als Audio-Transport mit dem Chat-Engine-Gehirn zu fixieren.

Warum ein Service-Account (für die Google-Bridge)

Cloud Speech-to-Text v2 und Cloud Text-to-Speech authentifizieren sich mit einem Google Cloud Service-Account-Schlüssel. Sie lehnen einen einfachen Gemini API-Schlüssel ab (der nur die Generative Language API authentifiziert). Wenn Sie Google nicht für die Bridge verwenden möchten, konfigurieren Sie stattdessen einen Deepgram-Schlüssel — die Bridge akzeptiert beide Anbieter.

Einen Google-Schlüssel bereitstellen — ca. 3 Minuten in GCP

💡
Das machen Sie nur einmal

Derselbe JSON-Schlüssel funktioniert für jede Sprachsitzung in der Organisation. Rotieren Sie ihn in dem Rhythmus, den Ihre Sicherheitsrichtlinie vorschreibt — das Hochladen eines neuen Schlüssels in der Benutzeroberfläche ersetzt den alten atomar.

  1. GCP IAM-Dienstkonten-Seite öffnen

    Wechseln Sie in der Google Cloud Console zum Projekt, das Ihre Google-Abrechnung besitzt, und öffnen Sie IAM & Verwaltung → Dienstkonten. Klicken Sie auf Dienstkonto erstellen. Geben Sie ihm einen einprägsamen Namen wie cc-voice-bridge — der Name wird nur für Ihr eigenes Audit-Log verwendet.

  2. Zwei Rollen vergeben

    Weisen Sie dem Dienstkonto diese zwei vordefinierten Rollen zu: Cloud Speech-to-Text Client (roles/speech.client) und Cloud Text-to-Speech User (roles/cloudtts.client). Beide sind Least-Privilege — das Konto kann nur STT und TTS aufrufen, nichts anderes in Ihrem Projekt.

  3. Die zwei APIs aktivieren

    Aktivieren Sie unter APIs & Dienste → Bibliothek speech.googleapis.com (Cloud Speech-to-Text API) und texttospeech.googleapis.com (Cloud Text-to-Speech API). Wenn sie bereits aktiviert sind, wird dies auf den Seiten angezeigt — keine Aktion erforderlich.

  4. Den JSON-Schlüssel erstellen und herunterladen

    Öffnen Sie auf der Dienstkonto-Detailseite die Registerkarte Schlüssel und klicken Sie auf Schlüssel hinzufügen → Neuen Schlüssel erstellen → JSON. Eine Datei wie cc-voice-bridge-<zufällig>.json wird auf Ihren Computer heruntergeladen. Behandeln Sie ihn wie ein Passwort: Jeder, der ihn hat, kann STT und TTS auf Ihre Projektrechnung aufrufen.

  5. In Your Office AI hochladen

    Öffnen Sie Einstellungen → Organisationen → Organisationseinstellungen → Sprache & KI. Klicken Sie in der Cloud-Sprachkarte auf Service-Account-JSON hochladen und wählen Sie die soeben heruntergeladene Datei — oder fügen Sie deren Inhalt ein. Die Karte validiert die JSON-Form clientseitig; der private Schlüssel wird bei nachfolgenden Lesevorgängen geschwärzt.

  6. Einen Modus wählen

    Auto wird empfohlen: Der Worker wählt die günstigste Pipeline, die noch volle Chat-Engine-Parität bietet, mit Präferenz für Deepgram, dann Google, dann eine Gemini Live-Bridge. Wählen Sie Nur vereint, wenn Sie einen expliziten Fehler wünschen, wenn kein Bridge-Anbieter konfiguriert ist, oder Realtime-Bridge, um Gemini Live als Audio-Transport mit dem Chat-Engine-Gehirn zu fixieren.

Sprache mit Avatar

Sprache kann mit einer animierten Avatar-Kachel kombiniert werden, angetrieben von Simli, für einen Avatar-Eingabemodus im Chat. Der Sprachkatalog erkennt auch eine breite Palette von STT-, TTS- und Avatar-Anbietern, die Admins konfigurieren können; Simli ist der produktseitige Avatar.

Überprüfen, ob die Pipeline aktiv ist

Nach dem Hochladen der Zugangsdaten und dem Starten einer neuen Sprachsitzung zeigt die Statuszeile oben auf der Karte die aktive Pipeline sowie die abgeleitete Google-Projekt-ID und Service-Account-E-Mail (bei Verwendung der Google-Bridge):

Aktiver Zustand

Vereinte Sprache + Text-Chat — aktiv. Sprache wird durch Ihr normales Chat-Backend geleitet (dasselbe LLM, Werkzeuge und Gedächtnis).

Zugangsdaten entfernen oder rotieren

Die Karte hat eine Aktion Zugangsdaten entfernen, die das gespeicherte JSON, die Projekt-ID, die Client-E-Mail und das konfigurierte Flag in einer Transaktion löscht. Zum Rotieren erstellen Sie einen neuen JSON-Schlüssel in GCP, laden ihn in der Benutzeroberfläche hoch und widerrufen den alten Schlüssel in der GCP-Konsole. Änderungen treten bei der nächsten Sprachsitzung in Kraft — kein Neustart erforderlich.

Kostenhinweise

Mit der Bridge zahlen Sie pro Minute Sprache-zu-Text und pro Zeichen Text-zu-Sprache, und nur für das Audio, das Sie tatsächlich transkribieren und synthetisieren — es gibt keine Leerlauf-Sitzungskosten. Deepgram ist im Allgemeinen der günstigste Bridge-Anbieter; die Gemini Live Realtime-Bridge wird zu Realtime-Tarifen abgerechnet und ist für den Fall reserviert, dass kein Bridge-Anbieter verfügbar ist.

Sicherheit

ℹ️
Ihr Service-Account-Schlüssel bleibt geschützt

Das Service-Account-JSON ist sensibel, und YOffice hält es sicher: Es wird serverseitig gespeichert und im Ruhezustand auf dieselbe Weise verschlüsselt wie andere Mandantengeheimnisse, und die Admin-API schwärzt den privaten Schlüssel bei jedem Lesevorgang — nur die abgeleitete Projekt-ID und Client-E-Mail werden zurückgegeben. Der Worker ruft das vollständige JSON über einen privaten Netzwerkpfad ab, der auf Ihren Mandanten beschränkt ist, sodass der Schlüssel die vertrauenswürdige Infrastruktur niemals verlässt.