En Your Office AI, la voz siempre usa el mismo motor de chat que el texto, por lo que hablar tiene las mismas herramientas, contexto y memoria que escribir. Esta página explica cómo se elige la canalización de voz y cómo aprovisionar las credenciales que necesita.
Your Office AI trata la voz como «unificada»: cada ruta de voz pasa por el motor de chat, por lo que una solicitud hablada puede usar adjuntos #, menciones @, búsqueda web, archivos y memoria exactamente como una escrita. Voz y texto comparten un único cerebro, por lo que hablar siempre te da el conjunto completo de funciones de la plataforma — esa garantía de paridad total está integrada en la plataforma.
La canalización unificada se ve así:
user audio → speech-to-text → chat engine (your normal LLM + tools + memory) → text-to-speech → user audio
Dado que voz y texto escriben en la misma sesión de chat, cambiar a mitad de conversación preserva el contexto automáticamente.
Internamente, dos canalizaciones pueden satisfacer la regla de paridad. Ambas usan el motor de chat como cerebro; difieren en cómo entra y sale el audio.
| Canalización | Cómo funciona | Proveedores |
|---|---|---|
| Bridge | Voz a texto → motor de chat → texto a voz. | Deepgram (Nova-3 STT + Aura-2 TTS) o Google (Cloud Speech v2 + Cloud TTS). |
| Bridge en tiempo real | Gemini Live como transporte de audio, con el motor de chat conectado como capa de razonamiento. Se usa como último recurso. | Gemini Live (una clave de API en tiempo real). |
El modo que eliges en Ajustes de organización indica al trabajador cómo seleccionar una canalización.
| Modo | Comportamiento |
|---|---|
| Automático (recomendado) | Elige la canalización más económica que aún ofrezca paridad total, en orden: Deepgram, luego Google, luego un bridge en tiempo real de Gemini Live. Si no hay ningún proveedor configurado, muestra un mensaje claro de voz para que siempre sepas que la voz se enruta a través del motor de chat completo. |
| Solo unificado | Fija el bridge (Deepgram o Google) como único transporte, para que un administrador que lo elija reciba un mensaje claro y explícito si no hay ningún proveedor de bridge configurado, en lugar de una alternativa silenciosa. |
| Bridge en tiempo real | Fija Gemini Live como transporte de audio con el cerebro del motor de chat conectado — el mismo conjunto completo de funciones, a coste de tiempo real. |
Automático es adecuado para casi todo el mundo — siempre mantiene la paridad completa del motor de chat y simplemente elige el transporte más rentable. Elige Solo unificado cuando quieras que el bridge sea el único transporte, o Bridge en tiempo real para fijar Gemini Live como transporte de audio con el cerebro del motor de chat conectado.
Cloud Speech-to-Text v2 y Cloud Text-to-Speech se autentican con una clave de service account de Google Cloud. Rechazan una clave de API de Gemini simple (que solo autentica la Generative Language API). Si prefieres no usar Google para el bridge, configura una clave de Deepgram en su lugar — el bridge acepta cualquier proveedor.
La misma clave JSON funciona para cada sesión de voz de la organización. Rótala con la cadencia que exija tu política de seguridad — subir una nueva clave en la interfaz reemplaza la antigua de forma atómica.
En la consola de Google Cloud, cambia al proyecto que posee tu facturación de Google y abre IAM y administración → Cuentas de servicio. Haz clic en Crear cuenta de servicio. Ponle un nombre memorable como cc-voice-bridge — el nombre solo se usa para tu propio registro de auditoría.
Asigna a la cuenta de servicio estos dos roles predefinidos: Cloud Speech-to-Text Client (roles/speech.client) y Cloud Text-to-Speech User (roles/cloudtts.client). Ambos son de mínimo privilegio — la cuenta solo puede llamar a STT y TTS, nada más en tu proyecto.
En APIs y servicios → Biblioteca, habilita speech.googleapis.com (API de Cloud Speech-to-Text) y texttospeech.googleapis.com (API de Cloud Text-to-Speech). Si ya están habilitadas, las páginas lo indicarán — no es necesaria ninguna acción.
En la página de detalles de la cuenta de servicio, abre la pestaña Claves y haz clic en Agregar clave → Crear nueva clave → JSON. Se descarga un archivo como cc-voice-bridge-<aleatorio>.json en tu máquina. Trátalo como una contraseña: cualquiera que lo tenga puede llamar a STT y TTS en la factura de tu proyecto.
Abre Ajustes → Organizaciones → Ajustes de organización → Voz e IA. En la tarjeta de voz en la nube, haz clic en Subir JSON de cuenta de servicio y selecciona el archivo que acabas de descargar, o pega su contenido. La tarjeta valida la forma del JSON en el cliente; la clave privada se redacta en lecturas posteriores.
Se recomienda Automático: el trabajador elige la canalización más económica que aún ofrezca paridad completa del motor de chat, prefiriendo Deepgram, luego Google, luego un bridge de Gemini Live. Elige Solo unificado si quieres un fallo explícito cuando no haya ningún proveedor de bridge configurado, o Bridge en tiempo real para fijar Gemini Live como transporte de audio con el cerebro del motor de chat conectado.
La voz puede combinarse con una tarjeta de avatar animado, con tecnología de Simli, para un modo de entrada de avatar en el chat. El catálogo de voz también reconoce una amplia gama de proveedores de STT, TTS y avatar que los administradores pueden configurar; Simli es el avatar integrado en el producto.
Después de subir las credenciales e iniciar una nueva sesión de voz, la fila de estado en la parte superior de la tarjeta refleja la canalización activa y el id de proyecto de Google derivado y el correo electrónico de la cuenta de servicio (cuando se usa el bridge de Google):
Voz y chat de texto unificados — activo. La voz se enruta a través de tu backend de chat habitual (mismo LLM, herramientas y memoria).
La tarjeta tiene una acción Eliminar credenciales que anula el JSON almacenado, el id de proyecto, el correo electrónico del cliente y el indicador configurado en una sola transacción. Para rotar, crea una nueva clave JSON en GCP, súbela en la interfaz y revoca la clave antigua en la consola de GCP. Los cambios surten efecto en la próxima sesión de voz — no es necesario reiniciar.
Con el bridge pagas por minuto de voz a texto y por carácter de texto a voz, y solo por el audio que realmente transcribes y sintetizas — no hay coste de sesión inactiva. Deepgram es generalmente el proveedor de bridge más económico; el bridge en tiempo real de Gemini Live factura a tarifas en tiempo real y está reservado para cuando no hay ningún proveedor de bridge disponible.
El JSON de la cuenta de servicio es sensible, y YOffice lo mantiene seguro: se almacena en el servidor y se cifra en reposo de la misma manera que otros secretos de inquilinos, y la API orientada al administrador redacta la clave privada en cada lectura — solo vuelven el id de proyecto derivado y el correo electrónico del cliente. El trabajador obtiene el JSON completo a través de una ruta de red privada delimitada a tu inquilino, por lo que la clave nunca sale de la infraestructura de confianza.