Voces virtuales: el servicio neuronal de texto a voz de Azure

        
                                                                                    
                        

                 {1990}{1945} } {19459008{{19459008 } } }{1945 {194590116} {194590116} {194590116} {194590116} {1945901100} {194590116} {19}
    

     Cómo la tecnología WaveNet de Google ha allanado el camino para los dispositivos que te responden
     El fundador y CEO de Voysis, Peter Cahill, explica cómo los recientes avances en el habla generada por máquinas cambiarán la forma en que interactuamos con las máquinas, hablando en la Conferencia de IA presentada por O'Reilly e Intel AI.
    

    

    
        

Los días del teclado y la pantalla como nuestro único método para interactuar con una computadora han quedado atrás. Ahora estamos rodeados de interfaces de usuario más naturales, agregando reconocimiento táctil y de voz a nuestro repertorio de interacciones. Lo mismo ocurre con la forma en que las computadoras nos responden, utilizando hápticos y síntesis de voz.

VER: Alexa Skills: Una guía para profesionales de negocios (PDF gratuito) (TechRepublic)

El discurso es cada vez más importante, ya que proporciona un forma de manos libres y a distancia de trabajar con dispositivos. No es necesario tocarlos ni mirarlos; todo lo que se necesita es un puñado de palabras clave y un buen sistema de reconocimiento de voz. Quizás estamos más familiarizados con los asistentes digitales como Cortana, Alexa, Siri y el Asistente de Google, pero las tecnologías del habla están apareciendo en sistemas de asistencia, en aplicaciones en el automóvil y en otros entornos donde las operaciones manuales son difíciles, distraen o son totalmente peligrosas.

Voces artificiales para nuestro código

El otro lado de la historia de reconocimiento de voz es, por supuesto, la síntesis de voz. Las computadoras son buenas para mostrar texto, pero no muy buenas para leerlo. Lo que se necesita es una manera fácil de tomar contenido de texto y convertirlo en un discurso reconocible de calidad humana, no en el misterioso tono monótono de un robot de ciencia ficción. Todos estamos familiarizados con las herramientas de síntesis de voz en los sistemas de telefonía automatizados o en las aplicaciones de GPS que fallan en las pruebas de pronunciación básicas, obteniendo nombres y direcciones graciosamente incorrectos.

La síntesis de voz de alta calidad no es fácil. Si adopta el enfoque estándar, mapeando el texto a cadenas de fonemas, el resultado a menudo es confuso y propenso a una mala pronunciación. Lo que es más desconcertante es que hay poca o ninguna inflexión. Incluso usar SSML (Lenguaje de marcado de síntesis de voz) para agregar énfasis e inflexión no hace mucha diferencia y solo se agrega a las cargas de trabajo del desarrollador, lo que requiere que cada enunciado se etiquete de antemano para agregar las construcciones de voz apropiadas.

Parte del problema es la forma en que funciona la síntesis de voz tradicional, con modelos separados tanto para analizar el texto como para predecir el audio requerido. Como son pasos separados, el resultado es claramente artificial. Lo que se necesita es un enfoque que tome esos pasos separados y los reúna, en un solo motor de síntesis de voz.

El servicio de texto a voz de Microsoft utiliza redes neuronales profundas para mejorar la forma en que los sistemas tradicionales de texto a voz coinciden con los patrones de estrés y entonación en el lenguaje hablado (prosodia) y sintetizar unidades de voz en una voz de computadora.

“data-credit =” Image: Microsoft “rel =” noopener noreferrer nofollow “>  microsoft-neural-tts.jpg

El servicio de texto a voz de Microsoft utiliza redes neuronales profundas para mejorar la forma en que los sistemas tradicionales de texto a voz combinan los patrones de estrés y entonación en el lenguaje hablado (prosodia) y sintetizan unidades de voz en una voz de computadora.

                                            Imagen: Microsoft
                                        

Uso de redes neuronales para un discurso más convincente

Microsoft Research ha estado trabajando en resolver este problema durante algún tiempo, y la técnica de síntesis del habla basada en la red neuronal resultante es ahora disponible como parte del conjunto de Servicios Cognitivos de Azure de Herramientas de voz . Usando su nuevo Servicio de texto a voz neuronal alojado en Servicio Azure Kubernetes para la escalabilidad, la voz generada se transmite a los usuarios finales. En lugar de múltiples pasos, el texto de entrada se pasa primero a través de un generador acústico neural para determinar la entonación antes de renderizarse usando un modelo de voz neural en un codificador de voz neural.

El modelo de voz subyacente se genera a través de técnicas de aprendizaje profundo utilizando un gran conjunto de voz muestreada como datos de entrenamiento. El documento original de Microsoft Research sobre el tema entra en detalles sobre los métodos de capacitación utilizados, inicialmente utilizando la minimización de errores de cuadro antes de refinar el modelo resultante con la minimización de errores de secuencia.

Usar el motor neural TTS es bastante fácil. Al igual que con todos los Servicios Cognitivos, comienza con una clave de suscripción y luego la usa para crear una clase que llame a las API de texto a voz. Todo lo que necesita hacer es elegir una de las voces neuronales para usar el nuevo servicio; Las API subyacentes son las mismas para TTS neuronales y estándar. Las respuestas de voz se transmiten desde el servicio a su dispositivo, por lo que puede dirigirlas directamente a su salida de audio predeterminada o guardarlas como un archivo para reproducirlas más tarde.

VER: Inteligencia artificial: una guía para líderes de negocios (PDF gratuito) (TechRepublic)

Las voces neuronales aún admiten SSML, por lo que puede agregar sus propios ajustes a las voces predeterminadas. Eso se suma a sus optimizaciones específicas para tipos de discurso específicos. Si no desea utilizar SSML, elija una voz neural por característica: una voz neutral o una voz alegre, por ejemplo. SSML se puede usar para acelerar la reproducción o cambiar el tono de un segmento de voz sin cambiar la voz sintetizada. De esa forma, puede permitir a los usuarios ajustar la salida para adaptarse a su entorno de trabajo, permitiéndoles elegir la configuración de voz que consideren apropiada.

Microsoft ha hecho que las voces neuronales estén disponibles en varias regiones, aunque para una mayor cobertura del idioma deberá volver a utilizar los modelos de síntesis de voz estándar más antiguos. Las voces neuronales están disponibles en inglés, alemán, italiano y chino, con cinco voces diferentes. La mayoría son mujeres, pero hay una voz masculina en inglés.

Agregando voces neuronales a sus aplicaciones

Entonces, ¿dónde usaría las voces neuronales? La elección obvia está en cualquier aplicación que requiera un largo conjunto de interacciones de voz, ya que la síntesis de voz tradicional puede ser agotadora para escuchar durante largos períodos. También desea usar voces neurales donde no desea agregar a la carga cognitiva, un riesgo que se reduce mediante el uso de un conjunto de voces más natural. Los asistentes personales digitales y los sistemas en el automóvil son un primer paso lógico para estas nuevas técnicas, pero puede usarlas para crear rápidamente versiones de audio de documentos existentes, reduciendo los costos de audiolibros y ayudando a los usuarios con estilos de aprendizaje auditivo.

Si desea comenzar a usar voces neuronales en sus aplicaciones, Microsoft ofrece una suscripción gratuita que le brinda 500,000 caracteres de texto reconocido por mes. Como las voces neuronales requieren más cómputo que los métodos tradicionales basados ​​en muestras, son más costosas de usar, pero a $ 16 por millón de caracteres una vez que abandona el servicio gratuito, no va a romper el banco, especialmente si usa el opción de guardar enunciados para su uso posterior. Estos se pueden usar para construir una biblioteca de segmentos de voz de uso común que se pueden reproducir según sea necesario.

Con el habla como una herramienta de accesibilidad cada vez más importante, es bueno ver que el estado del arte va más allá de voces forzadas, obviamente artificiales. El lanzamiento de voces neuronales de Microsoft en su suite de Servicios Cognitivos es un importante paso adelante. Ahora necesita llevarlos a más idiomas y a más regiones para que todos podamos obtener el beneficio de estas nuevas técnicas de síntesis de voz.

                                                                                

                                                

Ver también


Source link

Be part of our affiliated companies and receive a 20% discount.
www.onevirtualoffice.com
www.be1radio.com
www.rmcommunik.com
www.beonegroup.ca

Need Help?
Let our experienced staff help with virtual helpdesk. click for details.

Services:
– Laptop and Desktop Repair
– Virus and Malware Removal
– Computer Tune-up
– Remote Assistance
– Data Backup
– Data Recovery
– File Transfer and Sharing
– Hardware Diagnostics
– Antivirus Installation
– Software Installation
– Hardware Upgrades
– New System Setup
– Printer Troubleshooting
-Webmaster,hosting,Logo , Graphic design
-Social media Management
– Networking
– Install Windows Operating System (10, 8, 7, Vista and XP)

Business & Residential Toll Free: 1-800-432-1475 | Direct: (438)488-3296

About rasco

Be Happy the future is friendly.
Allrights Reserved 2007-2018 - Beone Magazine - powered by rasco