El asistente de voz convierte la entrada hablada en texto, la procesa a través del mismo motor de chat que usan tus conversaciones de texto y pronuncia la respuesta. Para eso se necesita un proveedor de reconocimiento de voz y otro de síntesis de voz. Your Office AI no depende de un proveedor concreto: configuras Deepgram, una cuenta de servicio de Google Cloud, o ambos, y no hay ningún valor predeterminado fijo.
No hay ningún proveedor de voz integrado. Nada habla hasta que un administrador configura al menos un puente. Cuando hay más de uno configurado, el worker elige entre ellos por orden de coste, no por una preferencia fija.
El worker de voz se une a una sala de LiveKit, transcribe el audio del usuario, envía ese texto al mismo motor de chat que usa el panel — mismo prompt del sistema, herramientas e historial — y pronuncia la respuesta. Como la voz y el texto escriben en la misma sesión de chat, puedes cambiar entre ellos a mitad de conversación.
| Proveedor | STT | TTS | Credencial |
|---|---|---|---|
| Deepgram | Nova-3 | Aura-2 | Una clave API |
| Google Cloud | Cloud Speech-to-Text v2 | Cloud Text-to-Speech | Clave JSON de cuenta de servicio |
Deepgram es el camino más sencillo: una única clave API cubre tanto el STT Nova-3 como el TTS Aura-2.
Inicia sesión en la consola de Deepgram y crea una clave API. Deepgram ofrece reconocimiento de voz (Nova-3) y síntesis de voz (Aura-2) bajo la misma clave, por lo que una única credencial cubre todo el flujo.
Abre Ajustes → Organizaciones → Ajustes de org → Voz y IA y pega la clave de Deepgram en la tarjeta del proveedor de voz. La clave se almacena cifrada y se redacta en lecturas posteriores.
Para un despliegue autoalojado, también puedes proporcionar la clave al worker del puente de voz a través de su entorno, junto con los datos de conexión de LiveKit que usa para unirse a las salas.
Cloud Speech-to-Text v2 y Cloud Text-to-Speech de Google se autentican con una clave de cuenta de servicio, no con una clave de API de Gemini: la clave de Gemini solo autentica la Generative Language API.
En la consola de Google Cloud, en el proyecto que tiene tu facturación de Google, crea una cuenta de servicio (por ejemplo, cc-voice-bridge). Cloud Speech-to-Text v2 y Cloud Text-to-Speech se autentican con Application Default Credentials — una clave de cuenta de servicio —, no con una clave de API normal.
Asigna Cloud Speech-to-Text Client (roles/speech.client) y Cloud Text-to-Speech User (roles/cloudtts.client). Estos permiten a la cuenta llamar a STT y TTS, y nada más.
Habilita speech.googleapis.com y texttospeech.googleapis.com en APIs y servicios → Biblioteca, si aún no lo están.
Genera una clave JSON para la cuenta de servicio. Súbela en Ajustes → Ajustes de org → Voz y IA (la tarjeta valida la forma del JSON y redacta la clave privada en lecturas posteriores), o móntalas en el worker de voz mediante GOOGLE_APPLICATION_CREDENTIALS para un despliegue autoalojado.
Cloud Speech v2 y Cloud TTS rechazan una clave de API de Gemini normal. Necesitan Application Default Credentials — es decir, un JSON de cuenta de servicio descargado. Trata ese JSON como una contraseña: quien lo tenga puede ejecutar STT y TTS a cargo de tu proyecto.
El modo de voz (en Ajustes de org → Voz y IA) decide qué puente usa el worker. El punto clave es que el modo elige entre los proveedores que hayas configurado: nunca introduce un proveedor propio.
| Modo | Comportamiento |
|---|---|
| Auto (recomendado) | Elige el puente configurado más económico que ofrezca plena paridad con el motor de chat, en orden de alternativa: Deepgram → Google → un puente Gemini Live como último recurso. Es una alternativa ordenada por coste, no un proveedor predeterminado. |
| Unificado | Fuerza el flujo STT → motor de chat → TTS. Elige este modo si prefieres un fallo explícito cuando no hay ningún proveedor de puente configurado, en lugar de una alternativa silenciosa. |
| Puente en tiempo real | Fija un modelo en tiempo real de Gemini Live como transporte de audio con el cerebro del motor de chat adjunto. Útil cuando quieres específicamente el modelo en tiempo real en el flujo. |
En modo Auto, el worker nunca falla si una credencial de proveedor falta, no se puede leer o no está autorizada: registra el fallo y pasa al siguiente puente en orden. Una clave de Google desactualizada degrada a "la voz sigue funcionando" en lugar de "la voz está rota".
Cloud Speech-to-Text v2 en streaming cuesta aproximadamente 0,024 $ por minuto de audio y las voces Neural2 de Cloud TTS rondan los 16 $ por millón de caracteres: solo pagas por el audio que realmente transcribes o pronuncias, sin coste de sesión inactiva. Deepgram se factura de forma similar por minuto / por carácter. Como con todos los proveedores, los administradores establecen límites de gasto por organización, y un límite de 0 deshabilita la voz en lugar de eliminar el límite.
See the Voz y chat unificados guide for how voice behaves in the app, then finish the setup chain with Correo transaccional.