Google Gemini 2.5 incorpora herramientas de audio en tiempo real y de discurso personalizado

Image by Firmbee.com, from Unsplash

Google Gemini 2.5 incorpora herramientas de audio en tiempo real y de discurso personalizado

Tiempo de lectura: 3 min.

Google introdujo capacidades de audio nativas en el modelo Gemini 2.5, lo cual amplió su soporte nativo para el diálogo en tiempo real y la generación de texto a voz (TTS) controlable.

¿Con prisa? Aquí están los datos rápidos:

  • Los usuarios pueden controlar el tono, el acento y la emoción mediante voz o indicaciones.
  • Las funciones de texto a voz permiten la generación de audio expresivo, multilingüe y con varios oradores.
  • Gemini puede ignorar el ruido de fondo y responder solo cuando sea relevante.

Google anunció que los usuarios y desarrolladores ahora pueden utilizar la inteligencia artificial para conversaciones habladas y producir contenido de audio, a través de más de 24 opciones de idioma.

Google afirma que Gemini 2.5 ahora genera y comprende el habla directamente en audio, lo que permite a los usuarios interactuar de manera más rápida y natural. El modelo acepta comandos de lenguaje natural para modificar su tono, acento y estilo, mientras añade características no verbales como pausas y susurros.

El sistema mantiene la conectividad con herramientas externas a través de Google Search, y APIs personalizadas, a lo largo de las conversaciones para recuperar información relevante.

Una característica busca mejorar la conciencia contextual. El sistema Gemini 2.5 detecta el habla o ruido de fondo para proporcionar respuestas solo cuando es apropiado. El sistema admite la comprensión de audio y video, lo que le permite analizar y proporcionar comentarios sobre la transmisión de video o el contenido de la pantalla compartida.

El componente de texto a voz también ha sido actualizado. Los usuarios ahora pueden controlar la generación de audio con características avanzadas que incluyen ajuste de tono emocional, control de ritmo, personalización de pronunciación y salida de audio multi-hablante. Las características funcionan con diferentes tipos de contenido, incluyendo narración de cuentos, anuncios y podcasts.

Google ofrece Gemini 2.5 Pro y vistas previas de Flash para desarrolladores a través de Google AI Studio o Vertex AI. La vista previa de Flash sirve para un uso rápido y económico, pero Pro ofrece una funcionalidad mejorada para indicaciones complejas.

Google implementó la marca de agua a través de SynthID en todo el audio generado por IA durante el desarrollo para garantizar la transparencia y realizó evaluaciones de riesgo por motivos de seguridad. La empresa realizó evaluaciones de seguridad internas y externas antes de liberar el sistema al público. Google implementa estas características como parte de su iniciativa para desarrollar sistemas de IA multimodales, que operan entre texto, imagen, video, código y audio avanzado.

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión