🎙️Productivity

Transkription & Live-Untertitel

Your Office AI kann Anrufe serverseitig in Echtzeit transkribieren — Live-Untertitel mit optionaler Übersetzung während des Anrufs und durchsuchbare Transkripte danach, die die KI als Kontext nutzen kann, alles unter einer Zugriffsrichtlinie, die Sie steuern.

🗣️In einem Anruf sprechenIn einem Arbeitsbereich-Anruf
🎙️STT-AgentWhisper / OpenAI / Cloud
📝TranskriptLive-Untertitel + gespeicherter Text
🤖RAG-Kontext für KIZugriffsgefilter, mit Quellenangabe
Von gesprochenen Wörtern zu KI-Kontext — aufgenommen, transkribiert, gespeichert und für den Assistenten durchsuchbar gemacht.

Eine Pipeline wählen

Ein Organisationsadministrator wählt die Transkriptions-Pipeline. Es gibt drei Optionen, Transkription ist standardmäßig deaktiviert:

PipelineWas sie istAm besten für
Keine StandardTranskription ist deaktiviert. Es werden keine Untertitel oder Transkripte erstellt.Organisationen, die keine Transkription benötigen
LiveKit CloudTranskription läuft in LiveKit Cloud und wird per Webhook geliefert.Schnellste Aktivierung — keine eigenen Server nötig
Selbst gehostetEin Transkriptions-Agent läuft in Ihrer eigenen Infrastruktur.Teams, die Audio auf eigenen Servern behalten möchten
ℹ️
Transkription ist opt-in

Neue Organisationen starten mit Transkription auf Keine. Ein Admin aktiviert eine Pipeline in den Organisationseinstellungen. Wenn eine Pipeline aktiv ist, werden die Teilnehmer benachrichtigt, dass die Transkription eingeschaltet ist.

Die Transkriptions-Engines

Selbst gehostete Transkription kann auf zwei Arten laufen, und LiveKit Cloud bietet einen dritten verwalteten Pfad. Alle drei liefern ihren Text über denselben Ingest-Vertrag, sodass sich der Rest des Produkts identisch verhält.

  • Modus A — Whisper: ein Solo-KI-Agent abonniert das Anruf-Audio, führt OpenAI Whisper lokal aus, veröffentlicht Live-Untertitel und sendet Segmente an den Server. Er kann auch einen geteilten Bildschirm an ein Sehmodell übermitteln, und gesprochene Beiträge erscheinen als Ihre Nachrichten im KI-Chat.
  • Modus B — OpenAI: eine LiveKit-Agentensitzung verwendet OpenAI für Sprache-zu-Text (und optional LLM und Text-zu-Sprache) und liefert Segmente über denselben Vertrag.
  • LiveKit Cloud: verwaltete Transkription, die per Webhook an den Server geliefert wird.

Live-Untertitel während eines Anrufs

  1. Einem Anruf beitreten

    Starten oder treten Sie einem Anruf in einem Arbeitsbereich bei, mit für Ihre Organisation aktivierter Transkription.

  2. Untertitel einschalten

    Öffnen Sie die Anrufsteuerung und schalten Sie Live-Untertitel ein. Das Overlay erscheint mit Sprecher-Labels und Zeitstempeln.

  3. Einfach oder übersetzt wählen

    Wechseln Sie das Overlay zwischen Transkript und Übersetzung, um das Gesagte spontan in einer anderen Sprache zu lesen.

  4. Entscheiden, ob gespeichert werden soll

    Ob das Transkript gespeichert wird, hängt von Ihrer Einstellung Transkriptionen speichern (standardmäßig ein) und der Arbeitsbereich-Zugriffsrichtlinie ab.

A
Alex M.
J
Jordan K.
S
Sam R.
D
Dana W.
Alex M.14:23🌐 Translate

— so the plan for Q4 is to double down on the onboarding flow and get the NPS above 70.

Live-Untertitel-Overlay während eines Anrufs — Sprecher-Labels und Zeitstempel erscheinen in Echtzeit, mit einem Übersetzungsschalter.

Was ein Untertitel enthält

Da Untertitel vom Server kommen, ist die Genauigkeit geräteunabhängig für alle Teilnehmer konsistent. Jede Untertitelzeile enthält:

  • Sprecher-Label — der Anzeigename der sprechenden Person.
  • Zeitstempel — die Zeit innerhalb des Anrufs, zur späteren Referenz.
  • Übersetzung — eine optionale übersetzte Darstellung, wenn das Overlay auf Übersetzen eingestellt ist.

Transkripte speichern

Jeder Benutzer hat eine Einstellung Transkriptionen speichern in den Einstellungen, die standardmäßig aktiviert ist. Wenn das Speichern aktiv und die Pipeline eingeschaltet ist, werden die Segmente des Anrufs persistiert, damit sie später durchsucht und als KI-Kontext verwendet werden können.

Wer ein gespeichertes Transkript sehen kann

Gespeicherte Transkripte unterliegen einer dreistufigen Zugriffsrichtlinie pro Arbeitsbereich, sodass ein Transkript immer nur für die richtigen Personen sichtbar ist:

RichtlinieWer das Transkript lesen kann
Gesamter ArbeitsbereichAlle Mitglieder des Arbeitsbereichs.
Alle aktuellen TeilnehmerAlle, die im Anruf waren.
Nur aktive ZuhörerNur diejenigen, die zum jeweiligen Zeitpunkt aktiv zugehört haben.
💡
Fragen Sie Ihre KI über vergangene Anrufe

Gespeicherte Transkripte sind RAG-abfragbar — der Assistent kann sie in Antworten durchsuchen und zitieren, immer gefiltert durch die obige Zugriffsrichtlinie, damit Personen nur sehen, was sie dürfen. Probieren Sie „Was haben wir im gestrigen Standup entschieden?" oder „Fasse die Budgetdiskussion von letzter Woche zusammen." Embeddings werden von einem Hintergrundauftrag erstellt, mit einem optionalen Konfidenzschwellenwert.

Datenschutz & Einwilligung

Transkription ist deaktiviert, bis ein Admin sie einschaltet; Teilnehmer werden benachrichtigt, wenn sie aktiv ist; der Zugriff auf gespeicherte Transkripte ist durch die obige Richtlinie eingeschränkt, und einzelne Benutzer kontrollieren, ob ihre Transkriptionen gespeichert werden. Datenaufbewahrungsfristen für Transkripte werden pro Arbeitsbereich auf der Datenschutz-Registerkarte festgelegt.

ℹ️
Hinter den Kulissen

Live-Untertitel und gespeicherte Transkripte stammen vollständig aus der serverseitigen Transkriptions-Pipeline — es gibt keine separate „Aufzeichnen"-Schaltfläche in der App, und Your Office AI erstellt keine Videoaufzeichnung des Anrufs.