Image by Firmbee.com, from Unsplash

Google Gemini 2.5 incorpora herramientas de audio en tiempo real y de discurso personalizado

Tiempo de lectura: 3 min.

Publicado por primera vez el: Jun 6, 2025

Actualizado 2 veces desde su publicación

Escrito por Kiara Fabbri Anteriormente redactora de noticias tecnológicas
Traducido por El equipo de localización y traducción Servicios de localización y traducción

Google introdujo capacidades de audio nativas en el modelo Gemini 2.5, lo cual amplió su soporte nativo para el diálogo en tiempo real y la generación de texto a voz (TTS) controlable.

¿Con prisa? Aquí están los datos rápidos:

Los usuarios pueden controlar el tono, el acento y la emoción mediante voz o indicaciones.
Las funciones de texto a voz permiten la generación de audio expresivo, multilingüe y con varios oradores.
Gemini puede ignorar el ruido de fondo y responder solo cuando sea relevante.

Google anunció que los usuarios y desarrolladores ahora pueden utilizar la inteligencia artificial para conversaciones habladas y producir contenido de audio, a través de más de 24 opciones de idioma.

Google afirma que Gemini 2.5 ahora genera y comprende el habla directamente en audio, lo que permite a los usuarios interactuar de manera más rápida y natural. El modelo acepta comandos de lenguaje natural para modificar su tono, acento y estilo, mientras añade características no verbales como pausas y susurros.

El sistema mantiene la conectividad con herramientas externas a través de Google Search, y APIs personalizadas, a lo largo de las conversaciones para recuperar información relevante.

Una característica busca mejorar la conciencia contextual. El sistema Gemini 2.5 detecta el habla o ruido de fondo para proporcionar respuestas solo cuando es apropiado. El sistema admite la comprensión de audio y video, lo que le permite analizar y proporcionar comentarios sobre la transmisión de video o el contenido de la pantalla compartida.

El componente de texto a voz también ha sido actualizado. Los usuarios ahora pueden controlar la generación de audio con características avanzadas que incluyen ajuste de tono emocional, control de ritmo, personalización de pronunciación y salida de audio multi-hablante. Las características funcionan con diferentes tipos de contenido, incluyendo narración de cuentos, anuncios y podcasts.

Google ofrece Gemini 2.5 Pro y vistas previas de Flash para desarrolladores a través de Google AI Studio o Vertex AI. La vista previa de Flash sirve para un uso rápido y económico, pero Pro ofrece una funcionalidad mejorada para indicaciones complejas.

Google implementó la marca de agua a través de SynthID en todo el audio generado por IA durante el desarrollo para garantizar la transparencia y realizó evaluaciones de riesgo por motivos de seguridad. La empresa realizó evaluaciones de seguridad internas y externas antes de liberar el sistema al público. Google implementa estas características como parte de su iniciativa para desarrollar sistemas de IA multimodales, que operan entre texto, imagen, video, código y audio avanzado.

Google Gemini 2.5 incorpora herramientas de audio en tiempo real y de discurso personalizado

¡Nos alegra que te guste nuestro trabajo!