
Image by Firmbee.com, from Unsplash
Google Gemini 2.5 incorpora herramientas de audio en tiempo real y de discurso personalizado
Google introdujo capacidades de audio nativas en el modelo Gemini 2.5, lo cual amplió su soporte nativo para el diálogo en tiempo real y la generación de texto a voz (TTS) controlable.
¿Con prisa? Aquí están los datos rápidos:
- Los usuarios pueden controlar el tono, el acento y la emoción mediante voz o indicaciones.
- Las funciones de texto a voz permiten la generación de audio expresivo, multilingüe y con varios oradores.
- Gemini puede ignorar el ruido de fondo y responder solo cuando sea relevante.
Google anunció que los usuarios y desarrolladores ahora pueden utilizar la inteligencia artificial para conversaciones habladas y producir contenido de audio, a través de más de 24 opciones de idioma.
Google afirma que Gemini 2.5 ahora genera y comprende el habla directamente en audio, lo que permite a los usuarios interactuar de manera más rápida y natural. El modelo acepta comandos de lenguaje natural para modificar su tono, acento y estilo, mientras añade características no verbales como pausas y susurros.
El sistema mantiene la conectividad con herramientas externas a través de Google Search, y APIs personalizadas, a lo largo de las conversaciones para recuperar información relevante.
Una característica busca mejorar la conciencia contextual. El sistema Gemini 2.5 detecta el habla o ruido de fondo para proporcionar respuestas solo cuando es apropiado. El sistema admite la comprensión de audio y video, lo que le permite analizar y proporcionar comentarios sobre la transmisión de video o el contenido de la pantalla compartida.
El componente de texto a voz también ha sido actualizado. Los usuarios ahora pueden controlar la generación de audio con características avanzadas que incluyen ajuste de tono emocional, control de ritmo, personalización de pronunciación y salida de audio multi-hablante. Las características funcionan con diferentes tipos de contenido, incluyendo narración de cuentos, anuncios y podcasts.
Google ofrece Gemini 2.5 Pro y vistas previas de Flash para desarrolladores a través de Google AI Studio o Vertex AI. La vista previa de Flash sirve para un uso rápido y económico, pero Pro ofrece una funcionalidad mejorada para indicaciones complejas.
Google implementó la marca de agua a través de SynthID en todo el audio generado por IA durante el desarrollo para garantizar la transparencia y realizó evaluaciones de riesgo por motivos de seguridad. La empresa realizó evaluaciones de seguridad internas y externas antes de liberar el sistema al público. Google implementa estas características como parte de su iniciativa para desarrollar sistemas de IA multimodales, que operan entre texto, imagen, video, código y audio avanzado.