🗣️ Infraestructura

Proveedores de voz

El asistente de voz convierte la entrada hablada en texto, la procesa a través del mismo motor de chat que usan tus conversaciones de texto y pronuncia la respuesta. Para eso se necesita un proveedor de reconocimiento de voz y otro de síntesis de voz. Your Office AI no depende de un proveedor concreto: configuras Deepgram, una cuenta de servicio de Google Cloud, o ambos, y no hay ningún valor predeterminado fijo.

ℹ️

Sin proveedor predeterminado

No hay ningún proveedor de voz integrado. Nada habla hasta que un administrador configura al menos un puente. Cuando hay más de uno configurado, el worker elige entre ellos por orden de coste, no por una preferencia fija.

Cómo funciona el puente de voz

El worker de voz se une a una sala de LiveKit, transcribe el audio del usuario, envía ese texto al mismo motor de chat que usa el panel — mismo prompt del sistema, herramientas e historial — y pronuncia la respuesta. Como la voz y el texto escriben en la misma sesión de chat, puedes cambiar entre ellos a mitad de conversación.

🎙️Audio del usuarioA través de LiveKit

📝STTDeepgram / Google

🧠Motor de chatEl mismo que para texto

🔊TTSDeepgram / Google

🗣️Respuesta habladaDe vuelta al usuario

Un motor de chat, dos modos de entrada: la voz y el texto comparten la misma sesión.

Los dos proveedores

Proveedor	STT	TTS	Credencial
Deepgram	Nova-3	Aura-2	Una clave API
Google Cloud	Cloud Speech-to-Text v2	Cloud Text-to-Speech	Clave JSON de cuenta de servicio

Opción A — Deepgram

Deepgram es el camino más sencillo: una única clave API cubre tanto el STT Nova-3 como el TTS Aura-2.

Crea una clave API de Deepgram
Inicia sesión en la consola de Deepgram y crea una clave API. Deepgram ofrece reconocimiento de voz (Nova-3) y síntesis de voz (Aura-2) bajo la misma clave, por lo que una única credencial cubre todo el flujo.
Añádela en Your Office AI
Abre Ajustes → Organizaciones → Ajustes de org → Voz y IA y pega la clave de Deepgram en la tarjeta del proveedor de voz. La clave se almacena cifrada y se redacta en lecturas posteriores.
O configúrala en el worker de voz
Para un despliegue autoalojado, también puedes proporcionar la clave al worker del puente de voz a través de su entorno, junto con los datos de conexión de LiveKit que usa para unirse a las salas.

Opción B — Cuenta de servicio de Google Cloud

Cloud Speech-to-Text v2 y Cloud Text-to-Speech de Google se autentican con una clave de cuenta de servicio, no con una clave de API de Gemini: la clave de Gemini solo autentica la Generative Language API.

Crea una cuenta de servicio de GCP
En la consola de Google Cloud, en el proyecto que tiene tu facturación de Google, crea una cuenta de servicio (por ejemplo, cc-voice-bridge). Cloud Speech-to-Text v2 y Cloud Text-to-Speech se autentican con Application Default Credentials — una clave de cuenta de servicio —, no con una clave de API normal.
Concede dos roles de mínimo privilegio
Asigna Cloud Speech-to-Text Client (roles/speech.client) y Cloud Text-to-Speech User (roles/cloudtts.client). Estos permiten a la cuenta llamar a STT y TTS, y nada más.
Habilita las dos APIs
Habilita speech.googleapis.com y texttospeech.googleapis.com en APIs y servicios → Biblioteca, si aún no lo están.
Crea y sube la clave JSON
Genera una clave JSON para la cuenta de servicio. Súbela en Ajustes → Ajustes de org → Voz y IA (la tarjeta valida la forma del JSON y redacta la clave privada en lecturas posteriores), o móntalas en el worker de voz mediante GOOGLE_APPLICATION_CREDENTIALS para un despliegue autoalojado.

⚠️

Cuenta de servicio, no clave de API

Cloud Speech v2 y Cloud TTS rechazan una clave de API de Gemini normal. Necesitan Application Default Credentials — es decir, un JSON de cuenta de servicio descargado. Trata ese JSON como una contraseña: quien lo tenga puede ejecutar STT y TTS a cargo de tu proyecto.

Cómo los proveedores se asignan a los modos de voz

El modo de voz (en Ajustes de org → Voz y IA) decide qué puente usa el worker. El punto clave es que el modo elige entre los proveedores que hayas configurado: nunca introduce un proveedor propio.

Modo	Comportamiento
Auto (recomendado)	Elige el puente configurado más económico que ofrezca plena paridad con el motor de chat, en orden de alternativa: Deepgram → Google → un puente Gemini Live como último recurso. Es una alternativa ordenada por coste, no un proveedor predeterminado.
Unificado	Fuerza el flujo STT → motor de chat → TTS. Elige este modo si prefieres un fallo explícito cuando no hay ningún proveedor de puente configurado, en lugar de una alternativa silenciosa.

💡

Auto se degrada de forma controlada

En modo Auto, el worker nunca falla si una credencial de proveedor falta, no se puede leer o no está autorizada: registra el fallo y pasa al siguiente puente en orden. Una clave de Google desactualizada degrada a "la voz sigue funcionando" en lugar de "la voz está rota".

Notas sobre coste

Cloud Speech-to-Text v2 en streaming cuesta aproximadamente 0,024 $ por minuto de audio y las voces Neural2 de Cloud TTS rondan los 16 $ por millón de caracteres: solo pagas por el audio que realmente transcribes o pronuncias, sin coste de sesión inactiva. Deepgram se factura de forma similar por minuto / por carácter. Como con todos los proveedores, los administradores establecen límites de gasto por organización, y un límite de 0 deshabilita la voz en lugar de eliminar el límite.

ℹ️

Siguiente

Consulta la guía de Voz y chat unificados para ver cómo funciona la voz en la app y, a continuación, completa la cadena de configuración con Correo transaccional.

← AnteriorOAuth & integrations Siguiente →Transactional email