Cómo está construido tu asistente

Un mapa vivo de la anatomía del asistente. Arrastra la cabeza para mirar alrededor y toca cualquier punto brillante para ver cómo funciona esa parte y qué la impulsa.

Cada asistente pertenece a una organización: un tenant aislado con sus propios datos, miembros y políticas.
Datos multitenant aisladosUna base de datos y un almacenamiento dedicados por organización — aislamiento estricto por diseño.
Gobernanza de funciones y usoLos administradores habilitan capacidades y limitan el uso para que el comportamiento sea coherente para todos.
Cómo funciona
Nada se comparte entre organizaciones. Cada una conserva su propio conocimiento, conversaciones, integraciones y registro de auditoría, de modo que tus datos nunca se mezclan con los de nadie más.
Los administradores deciden qué funcionalidades están activas y establecen límites de uso razonables, manteniendo el asistente predecible y los costes bajo control para todo el equipo.
El entorno dentro del que vive cada otra capacidad — define lo que el Pensar y la Conexión tienen permitido hacer.
Más información
Uno o varios modelos de IA hacen el razonamiento: leen lo que escribiste o dijiste y redactan la respuesta.
LLMs multimodeloOpenAI, Gemini, Ollama local y otros funcionan juntos; el asistente enruta automáticamente a uno capaz, o al que tú elijas.
Modelos de voz en tiempo realGemini Live o OpenAI Realtime sostienen una conversación hablada bidireccional real con una latencia muy baja.
Cómo funciona
Puedes conectar varios modelos en paralelo — OpenAI, Google Gemini, Ollama local y más — y cambiar cuál está activo en cada momento. El modelo adecuado para cada tarea, sin quedarte atado a uno solo.
Para una conversación hablada natural, un modelo en tiempo real puede escuchar y hablar en un flujo continuo, en lugar de pasar el audio por pasos separados.
Toma todo lo que los sentidos recopilan, razona sobre ello y entrega su respuesta al Hablar para que sea pronunciada.
Más información
Comparte tu pantalla y micrófono para que el asistente vea lo que estás haciendo y te ayude en contexto.
Captura de pantalla y audio en vivoTransmite tu pantalla y micrófono al asistente en tiempo real a través de la conexión LiveKit.
Modelo de visión compartidoUsa el modelo que ya tienes configurado en Pensar — sin una canalización de visión separada.
Cómo funciona
Ideal para demostraciones guiadas y para resolver bloqueos mientras trabajas: el asistente sigue la sesión en directo en lugar de adivinar a partir de una descripción.
Razona con el mismo modelo de IA que el resto del chat y puede explicarte verbalmente lo que ve cuando las respuestas de voz están disponibles.
Envía lo que ve directamente al Pensar para que el razonamiento tenga contexto visual real.
Más información
El audio de tu micrófono se convierte en texto que el asistente puede leer.
Voz a texto en la nube en streamingTranscripción en tiempo real mediante Deepgram Nova-3, con Google Cloud Speech como alternativa.
Alternativa en el dispositivoTranscripción privada y sin conexión que siempre funciona — sin cuenta ni red necesaria.
Cómo funciona
La transcripción en el dispositivo funciona de forma privada, sin conexión y sin necesidad de un servicio externo: ideal cuando el habla nunca debe salir del dispositivo.
Para una conversación natural y fluida, un servicio de nube en streaming transcribe el habla en el instante en que la pronuncias.
Envía las palabras que escuchó al Pensar para que sean comprendidas.
Más información
El asistente convierte su respuesta escrita en una voz hablada natural.
Texto a voz neuronalVoces naturales de Google Cloud TTS o Deepgram Aura-2, elegidas por su calidad o menor latencia.
Amplia cobertura de idiomasMuchos idiomas y voces, para que el asistente hable como lo hace tu equipo.
Cómo funciona
Una voz neuronal de texto a voz lee la respuesta en voz alta, de modo que una sesión de voz se siente como una conversación real en lugar de leer una pantalla.
Tú eliges el proveedor de voz que mejor se adapta a tus necesidades de calidad, latencia y cobertura de idiomas.
Viaja por la Conexión hasta tus altavoces — el último paso de una respuesta hablada.
Más información
Cada flujo de voz o vídeo pasa por un servidor multimedia LiveKit.
LiveKit Cloud o autoalojadoUsa el servicio gestionado o ejecuta tu propio servidor para un control y privacidad totales.
Medios WebRTC en tiempo realAudio y vídeo cifrados y de baja latencia, construidos para la conversación en vivo, no para la transferencia de archivos.
Cómo funciona
LiveKit mueve el audio y el vídeo entre tú y el asistente — y entre compañeros — con la baja latencia que necesita la conversación en tiempo real.
Ejecútalo como servicio gestionado en la nube sin nada que mantener, o alójalo tú mismo para tener control total y residencia de datos. De cualquier modo, transporta el Escuchar, el Hablar y el Ver para todos en la organización.
Transporta toda la voz y el vídeo entre tú y el asistente — Escuchar, Hablar y Ver viajan todos sobre él.
Más información

← AnteriorIntroduction Siguiente →AI Assistant