Wie Ihr Assistent aufgebaut ist

Eine lebendige Karte der Anatomie des Assistenten. Ziehen Sie den Kopf, um sich umzusehen, und tippen Sie auf einen leuchtenden Punkt, um zu sehen, wie dieser Teil funktioniert und was ihn antreibt.

Jeder Assistent gehört zu einer Organisation – einem isolierten Mandanten mit eigenen Daten, Mitgliedern und Richtlinien.
Isolierte Mehrmandanten-DatenEine dedizierte Datenbank und Speicher je Organisation – strikte Isolation by design.
Funktions- und NutzungssteuerungAdmins aktivieren Funktionen und begrenzen die Nutzung, damit das Verhalten für alle konsistent bleibt.
Wie es funktioniert
Zwischen Organisationen wird nichts geteilt. Jede bewahrt ihr eigenes Wissen, ihre Gespräche, Integrationen und ihren Prüfpfad, sodass Ihre Daten sich niemals mit denen anderer vermischen.
Admins entscheiden, welche Funktionen aktiviert sind, und legen sinnvolle Nutzungsgrenzen fest, damit der Assistent für das gesamte Team berechenbar und die Kosten unter Kontrolle bleiben.
Der Rahmen, in dem jede andere Fähigkeit lebt – er bestimmt, was das Denken und die Verbindung tun dürfen.
Mehr erfahren
Ein oder mehrere KI-Modelle übernehmen das Denken – sie lesen, was Sie getippt oder gesagt haben, und verfassen die Antwort.
Multi-Modell-LLMsOpenAI, Gemini, lokales Ollama und andere laufen gemeinsam; der Assistent leitet automatisch oder auf Ihre Wahl an ein geeignetes weiter.
Echtzeit-SprachmodelleGemini Live oder OpenAI Realtime führen ein echtes bidirektionales Gespräch mit sehr geringer Latenz.
Wie es funktioniert
Sie können mehrere Modelle parallel einbinden – OpenAI, Google Gemini, lokales Ollama und mehr – und in der Situation wechseln, welches aktiv ist. Das richtige Modell für die Aufgabe, niemals eine einzige Abhängigkeit.
Für natürliche gesprochene Unterhaltung kann ein Echtzeit-Modell in einem kontinuierlichen Fluss zuhören und sprechen, statt Audio zwischen separaten Schritten weiterzugeben.
Verarbeitet alles, was die Sinne aufnehmen, denkt darüber nach und gibt seine Antwort an das Sprechen weiter.
Mehr erfahren
Teilen Sie Ihren Bildschirm und Ihr Mikrofon, damit der Assistent sehen kann, was Sie tun, und kontextuell helfen kann.
Live-Bildschirm- und Audio-AufnahmeÜberträgt Ihren Bildschirm und Ihr Mikrofon in Echtzeit über die LiveKit-Verbindung an den Assistenten.
Gemeinsames Bildverständnis-ModellNutzt das Modell, das Sie bereits im Denken eingerichtet haben – keine separate Bild-Pipeline.
Wie es funktioniert
Ideal für Walkthroughs, Demos und das Lösen von Problemen während der Arbeit – der Assistent verfolgt das Geschehen live, statt aus einer Beschreibung zu raten.
Er arbeitet mit demselben KI-Modell wie der übrige Chat und kann Sie durch das, was er sieht, führen, wenn gesprochene Antworten verfügbar sind.
Leitet das Gesehene direkt an das Denken weiter, damit das Schlussfolgern echten visuellen Kontext hat.
Mehr erfahren
Ihr Mikrofon-Audio wird in Text umgewandelt, den der Assistent lesen kann.
Streaming-Cloud-Sprache-zu-TextEchtzeit-Transkription über Deepgram Nova-3, mit Google Cloud Speech als Alternative.
Fallback auf dem GerätPrivate, offline Transkription, die immer funktioniert – kein Konto und keine Internetverbindung erforderlich.
Wie es funktioniert
Transkription auf dem Gerät läuft privat, funktioniert offline und benötigt keinen Drittanbieter-Dienst – ideal, wenn Sprache das Gerät niemals verlassen soll.
Für natürliche, fließende Unterhaltung transkribiert ein Streaming-Cloud-Dienst Sprache in dem Moment, in dem Sie sprechen.
Sendet die gehörten Worte an das Denken, um verstanden zu werden.
Mehr erfahren
Der Assistent wandelt seine schriftliche Antwort in eine natürliche gesprochene Stimme um.
Neuronale Text-zu-SpracheNatürliche Stimmen von Google Cloud TTS oder Deepgram Aura-2, gewählt nach Qualität oder niedrigerer Latenz.
Breite SprachabdeckungViele Sprachen und Stimmen, damit der Assistent so spricht, wie Ihr Team es tut.
Wie es funktioniert
Eine neuronale Text-zu-Sprache-Stimme liest die Antwort laut vor, sodass sich eine Sprachsitzung wie ein echtes Gespräch anfühlt und nicht wie das Lesen von einem Bildschirm.
Sie wählen den Sprachanbieter, der am besten zu Ihren Anforderungen an Qualität, Latenz und Sprachabdeckung passt.
Reist über die Verbindung zu Ihren Lautsprechern – der letzte Schritt einer gesprochenen Antwort.
Mehr erfahren
Jeder Sprach- oder Video-Stream läuft über einen LiveKit-Medienserver.
LiveKit Cloud oder selbst gehostetNutzen Sie den verwalteten Dienst oder betreiben Sie Ihren eigenen Server für volle Kontrolle und Datenschutz.
Echtzeit-WebRTC-MedienLatenzarmes, verschlüsseltes Audio und Video für Live-Gespräche, nicht für Dateiübertragungen.
Wie es funktioniert
LiveKit überträgt Audio und Video zwischen Ihnen und dem Assistenten – und zwischen Teammitgliedern – mit der geringen Latenz, die echte Unterhaltung erfordert.
Betreiben Sie es als verwalteten Cloud-Dienst ohne Wartungsaufwand oder hosten Sie es selbst für volle Kontrolle und Datenhaltung. In jedem Fall trägt es das Zuhören, Sprechen und Sehen für alle in der Organisation.
Überträgt alle Sprache und alles Video zwischen Ihnen und dem Assistenten – Zuhören, Sprechen und Sehen laufen alle darüber.
Mehr erfahren

← ZurückIntroduction Weiter →AI Assistant