VibeVoice, un conjunto de modelos de inteligencia artificial de voz de código abierto desarrollado por Microsoft, ha lanzado su modelo de reconocimiento de voz VibeVoice-ASR, que permite transcripciones estructuradas de audio de hasta 60 minutos en un solo paso. Este modelo es multilingüe y ofrece soporte para palabras clave personalizadas, mejorando la precisión en contenidos específicos. Además, se han introducido mejoras en la generación de voz en tiempo real y se han abordado preocupaciones sobre el uso responsable de la IA, dado el potencial de desinformación y sesgos inherentes.
github.com
Tecnologa
VibeVoice: Innovador Modelo de Reconocimiento de Voz Multilingüe de Microsoft