🎙️Admin & Settings

Voz y chat de texto unificados

En Your Office AI, la voz siempre usa el mismo motor de chat que el texto, por lo que hablar tiene las mismas herramientas, contexto y memoria que escribir. Esta página explica cómo se elige la canalización de voz y cómo aprovisionar las credenciales que necesita.

Un único cerebro para voz y texto

Your Office AI trata la voz como «unificada»: cada ruta de voz pasa por el motor de chat, por lo que una solicitud hablada puede usar adjuntos #, menciones @, búsqueda web, archivos y memoria exactamente como una escrita. Voz y texto comparten un único cerebro, por lo que hablar siempre te da el conjunto completo de funciones de la plataforma — esa garantía de paridad total está integrada en la plataforma.

La canalización unificada se ve así:

user audio → speech-to-text → chat engine (your normal LLM + tools + memory) → text-to-speech → user audio

🗣️HablasModo voz o avatar

🎙️Voz a textoDeepgram / Google

🧠Motor de chatTu LLM + herramientas + memoria

🔊Texto a vozRespuesta hablada

La voz usa el mismo motor de chat que el texto — plena paridad de herramientas, contexto # y memoria.

Dado que voz y texto escriben en la misma sesión de chat, cambiar a mitad de conversación preserva el contexto automáticamente.

Las dos canalizaciones

Internamente, dos canalizaciones pueden satisfacer la regla de paridad. Ambas usan el motor de chat como cerebro; difieren en cómo entra y sale el audio.

Canalización	Cómo funciona	Proveedores
Bridge	Voz a texto → motor de chat → texto a voz.	Deepgram (Nova-3 STT + Aura-2 TTS) o Google (Cloud Speech v2 + Cloud TTS).
Bridge en tiempo real	Gemini Live como transporte de audio, con el motor de chat conectado como capa de razonamiento. Se usa como último recurso.	Gemini Live (una clave de API en tiempo real).

Modos

El modo que eliges en Ajustes de organización indica al trabajador cómo seleccionar una canalización.

Modo	Comportamiento
Automático (recomendado)	Elige la canalización más fiable que aún ofrezca paridad total, probando primero Deepgram, luego Google, y recurriendo automáticamente a un bridge en tiempo real de Gemini Live solo como último recurso. Si no hay ningún proveedor configurado, muestra un mensaje claro de voz para que siempre sepas que la voz se enruta a través del motor de chat completo.
Solo unificado	Fija el bridge (Deepgram o Google) como único transporte, para que un administrador que lo elija reciba un mensaje claro y explícito si no hay ningún proveedor de bridge configurado, en lugar de una alternativa silenciosa.

💡

¿Qué modo debo elegir?

Automático es adecuado para casi todo el mundo — siempre mantiene la paridad completa del motor de chat y solo recurre automáticamente al bridge en tiempo real de Gemini Live si no hay ningún proveedor de bridge configurado. Elige Solo unificado cuando quieras que el bridge sea el único transporte, con un fallo explícito en vez de una alternativa silenciosa. Fijar el bridge en tiempo real como modo independiente ya no está disponible — su vía de audio resultó poco fiable, así que hoy solo se ejecuta automáticamente como respaldo dentro de Automático.

Por qué un service account (para el bridge de Google)

Cloud Speech-to-Text v2 y Cloud Text-to-Speech se autentican con una clave de service account de Google Cloud. Rechazan una clave de API de Gemini simple (que solo autentica la Generative Language API). Si prefieres no usar Google para el bridge, configura una clave de Deepgram en su lugar — el bridge acepta cualquier proveedor.

Aprovisionar una clave de Google — unos 3 minutos en GCP

💡

Solo lo haces una vez

La misma clave JSON funciona para cada sesión de voz de la organización. Rótala con la cadencia que exija tu política de seguridad — subir una nueva clave en la interfaz reemplaza la antigua de forma atómica.

Abre la página de cuentas de servicio de IAM de GCP
En la consola de Google Cloud, cambia al proyecto que posee tu facturación de Google y abre IAM y administración → Cuentas de servicio. Haz clic en Crear cuenta de servicio. Ponle un nombre memorable como cc-voice-bridge — el nombre solo se usa para tu propio registro de auditoría.
Otorga dos roles
Asigna a la cuenta de servicio estos dos roles predefinidos: Cloud Speech-to-Text Client (roles/speech.client) y Cloud Text-to-Speech User (roles/cloudtts.client). Ambos son de mínimo privilegio — la cuenta solo puede llamar a STT y TTS, nada más en tu proyecto.
Habilita las dos APIs
En APIs y servicios → Biblioteca, habilita speech.googleapis.com (API de Cloud Speech-to-Text) y texttospeech.googleapis.com (API de Cloud Text-to-Speech). Si ya están habilitadas, las páginas lo indicarán — no es necesaria ninguna acción.
Crea y descarga la clave JSON
En la página de detalles de la cuenta de servicio, abre la pestaña Claves y haz clic en Agregar clave → Crear nueva clave → JSON. Se descarga un archivo como cc-voice-bridge-<aleatorio>.json en tu máquina. Trátalo como una contraseña: cualquiera que lo tenga puede llamar a STT y TTS en la factura de tu proyecto.
Súbelo en Your Office AI
Abre Ajustes → Organizaciones → Ajustes de organización → Voz e IA. En la tarjeta de voz en la nube, haz clic en Subir JSON de cuenta de servicio y selecciona el archivo que acabas de descargar, o pega su contenido. La tarjeta valida la forma del JSON en el cliente; la clave privada se redacta en lecturas posteriores.
Elige un modo
Se recomienda Automático: el trabajador elige la canalización más fiable que aún ofrezca paridad completa del motor de chat, prefiriendo Deepgram, luego Google, y recurriendo a un bridge de Gemini Live automáticamente solo como último recurso. Elige Solo unificado si quieres un fallo explícito cuando no haya ningún proveedor de bridge configurado.

Voz con avatar

La voz puede combinarse con una tarjeta de avatar animado — Simli y Tavus son proveedores de avatar compatibles — para un modo de entrada de avatar en el chat. El catálogo de voz también reconoce una amplia gama de proveedores de STT, TTS y avatar que los administradores pueden configurar.

Verificar que la canalización está activa

Después de subir las credenciales e iniciar una nueva sesión de voz, la fila de estado en la parte superior de la tarjeta refleja la canalización activa y el id de proyecto de Google derivado y el correo electrónico de la cuenta de servicio (cuando se usa el bridge de Google):

✅

Estado activo

Voz y chat de texto unificados — activo. La voz se enruta a través de tu backend de chat habitual (mismo LLM, herramientas y memoria).

Eliminar o rotar credenciales

La tarjeta tiene una acción Eliminar credenciales que anula el JSON almacenado, el id de proyecto, el correo electrónico del cliente y el indicador configurado en una sola transacción. Para rotar, crea una nueva clave JSON en GCP, súbela en la interfaz y revoca la clave antigua en la consola de GCP. Los cambios surten efecto en la próxima sesión de voz — no es necesario reiniciar.

Notas sobre costes

Con el bridge pagas por minuto de voz a texto y por carácter de texto a voz, y solo por el audio que realmente transcribes y sintetizas — no hay coste de sesión inactiva. Deepgram es generalmente el proveedor de bridge más económico; el bridge en tiempo real de Gemini Live factura a tarifas en tiempo real y está reservado para cuando no hay ningún proveedor de bridge disponible.

Seguridad

ℹ️

Tu clave de service account está protegida

El JSON de la cuenta de servicio es sensible: se almacena en el servidor, y la API orientada al administrador lo redacta en cada lectura tras la subida inicial — solo vuelven el id de proyecto derivado y el correo electrónico del cliente. El trabajador obtiene el JSON completo a través de una ruta de red privada delimitada a tu inquilino, por lo que la clave nunca sale de la infraestructura de confianza.

← AnteriorOrganization Settings Siguiente →Members & Roles