Ai coinsNoticias candentesTecnología

Cómo utiliza VALL-E la tecnología de inteligencia artificial?

VALL-E (Laboratorio de Aprendizaje de Agentes Virtuales – Extendido) es un agente virtual basado en inteligencia artificial desarrollado por Microsoft Research.

En los últimos años, la inteligencia artificial (IA) se ha utilizado cada vez más para revolucionar varias industrias, incluida la educación.

El VALL-E de Microsoft es un chatbot impulsado por IA que tiene como objetivo mejorar la experiencia de aprendizaje de los estudiantes.

En este ensayo, exploraremos qué es VALL-E, cómo utiliza la tecnología de inteligencia artificial y los beneficios y limitaciones de su implementación.

 

Qué es VALL-E de Microsoft?

VALL-E no es una criptomoneda que utiliza tecnologías de inteligencia artificial para admitir aplicaciones de voz.

  • Es una herramienta de inteligencia artificial desarrollada por Microsoft que puede imitar la voz de cualquier persona y sintetizar audio de esa persona diciendo cualquier cosa, intentando preservar el tono emocional y el entorno del hablante.
  • VALL-E produce códigos discretos de códec de audio a partir de pistas de texto y acústicas, a diferencia de los sistemas convencionales de síntesis de voz que suelen sintetizar el habla modificando las formas de onda.
  • Microsoft ha entrenado las habilidades de síntesis de su nueva VALL-E usando la biblioteca de audio LibriLight, que fue ensamblada por Meta, la empresa matriz de Facebook.
  • El ICO de VALL-E fue lanzado en 2020, ofreciendo la oportunidad de ser parte de algo verdaderamente revolucionario.
  • Microsoft también ha lanzado su propio token criptográfico llamado VALL-E Inteligencia Artificial en preventa para recaudar 10 millones de dólares.
  • OpenAI y Microsoft han implementado VALL-E como un nuevo chatbot de voz que expande el poder de la inteligencia artificial.

Sin embargo, también existen preocupaciones de que VALL-E pueda ser utilizado con fines fraudulentos, ya que puede ser utilizado para imitar a personas reales.

Microsoft a veces se refiere a VALL-E como un “modelo de lenguaje de códec neural”.

  • En comparación con otros generadores de voz disponibles en internet, VALL-E utiliza una nueva técnica que le permite lograr una precisión mucho mayor.

 

  • Una de estas técnicas es que los datos de entrenamiento del TTS se expandieron a 60.000 horas de habla en inglés, lo que según Microsoft es cientos de veces más habla de la que actualmente está disponible en los sistemas.

Ahora, el sistema TTS puede crear “habla personalizada de alta calidad” utilizando nada más que una grabación de audio de 3 segundos de cualquier individuo como una “pista acústica”.

Cómo utiliza VALL-E la tecnología de inteligencia artificial?

 

VALL-E utiliza tecnologías de inteligencia artificial para respaldar aplicaciones de voz.

Específicamente, VALL-E produce códigos de códec de audio discretos a partir de texto y señales acústicas, a diferencia de los sistemas convencionales de texto a voz que suelen sintetizar el habla modificando las formas de onda.

  • Una vez que la herramienta de IA aprende una voz específica, VALL-E puede sintetizar audio de esa persona diciendo cualquier cosa, tratando de preservar el tono emocional y el entorno del hablante.

Los desarrolladores de VALL-E de Microsoft revelaron que la herramienta decodifica la voz de una persona en tokens después de aprender la voz.

VALL-E también puede ser utilizado para sintetizar habla personalizada en una “situación de cero disparo”, lo que significa sin ningún ejemplo o entrenamiento previo en un contexto o situación específicos.

Existen preocupaciones éticas en torno al uso de la tecnología de síntesis de voz de VALL-E?

Sí, existen preocupaciones éticas en torno al uso de la tecnología de síntesis de voz de VALL-E.

Una preocupación es el potencial de crear audios deepfake o de suplantar a alguien sin su consentimiento.

VALL-E puede imitar la voz de cualquier persona y sintetizar audio de esa persona diciendo cualquier cosa, tratando de preservar el tono emocional y el entorno del hablante.

Esto plantea preocupaciones sobre el potencial uso fraudulento de la tecnología.

Además, la tecnología de síntesis de voz tiene un gran potencial para el bien, pero también conlleva un considerable riesgo práctico y peso ético.

Muchas preguntas quedan sin explorar sobre cómo desarrollar y utilizar éticamente dicha tecnología.

La Open Voice Network está abogando por directrices éticas para la síntesis de voz como parte de su agenda más amplia.

Estos son esfuerzos críticos para establecer las preguntas que deben ser respondidas.

 

Beneficios de la herramienta VALL-E

La herramienta VALL-E es un nuevo modelo de inteligencia artificial de texto a voz desarrollado por Microsoft que puede simular la voz de cualquier persona con solo tres segundos de grabación de audio.

Aquí hay algunos beneficios de la herramienta VALL-E:

  • Habla personalizada de alta calidad: VALL-E puede producir habla personalizada de alta calidad con solo una grabación de tres segundos de un hablante oblicuo actuando como un estímulo acústico.
  • Puede replicar la voz del hablante, incluyendo el timbre y el tono emocional del hablante.
  • Voz sintética con sonido natural: VALL-E crea una voz sintética con sonido natural mucho más que otros modelos al preservar la entonación, el carisma y el estilo de la muestra original.
  • Mantenimiento de la emoción del hablante: VALL-E puede sintetizar habla personalizada mientras mantiene la emoción en la indicación del hablante.
  • Potencial de escala: VALL-E tiene el potencial de escalar y puede ser efectivo en escenarios de “cero disparo” o “pocos disparos”.
  • Diferentes aplicaciones de síntesis de voz: VALL-E se puede utilizar para aplicaciones de texto a voz de alta calidad, edición de habla y creación de contenido de audio cuando se combina con otros modelos de IA generativos como GPT-3.
  • También se puede utilizar en juegos, fintech y otras industrias que ya están adoptando interfaces de voz.
  • Supera al sistema TTS de última generación:Los resultados de experimentos muestran que VALL-E supera significativamente al sistema TTS de “cero disparo” de última generación en términos de naturalidad del habla y similitud del hablante.
  • Códigos de códec de audio discretos: A diferencia del pipeline anterior, el pipeline de VALL-E es fonema → código discreto → forma de onda.
  • VALL-E genera los códigos de códec de audio discretos en función de los indicadores fonéticos y acústicos, correspondientes al contenido objetivo y la voz del hablante.

Es importante señalar que Microsoft no ha proporcionado el código de VALL-E para que otros experimenten con él, por lo que no es posible probar sus capacidades de manera independiente.

Cuáles son algunos riesgos potenciales asociados con el uso de la tecnología de síntesis de voz de VALL-E?

Existen varios riesgos potenciales asociados con el uso de la tecnología de síntesis de voz de VALL-E, incluyendo:

Uso indebido del modelo: VALL-E puede sintetizar habla que mantiene la identidad del hablante, lo que puede llevar a riesgos potenciales en el mal uso del modelo, como la suplantación de la identificación de voz o la impersonación de un hablante específico.

Preocupaciones de privacidad: Los expertos afirman que la IA que clona tu voz podría crear problemas de privacidad.

Preocupaciones de seguridad: Microsoft es consciente de los peligros que VALL-E puede plantear cuando se usa de manera indebida.

Riesgos de mal uso: Al igual que con los deepfakes, existen riesgos de mal uso de la tecnología de síntesis de voz de VALL-E.

En general, si bien VALL-E tiene el potencial de ser utilizado para el bien, es importante considerar los riesgos potenciales asociados con su uso y tomar medidas para mitigar esos riesgos.

Qué medidas ha tomado Microsoft para mitigar los riesgos potenciales asociados con la tecnología de síntesis de voz de VALL-E?

Microsoft ha tomado algunas medidas para mitigar los riesgos potenciales asociados con la tecnología de síntesis de voz de VALL-E.

Estas medidas incluyen:

  • Realizar experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis de voz.
  • Reconocer los posibles riesgos en el mal uso del modelo, como la suplantación de la identificación de voz o laimpersonación de un hablante específico.
  • Preservar la emoción del hablante y el entorno acústico del indicador acústico en la síntesis
  • Crear una voz sintética con sonido natural mucho más que otros modelos al preservar la entonación, el carisma y el estilo de la muestra original.
  • No hacer que el código sea de código abierto, posiblemente debido a los riesgos inherentes.

En general, si bien Microsoft ha tomado algunas medidas para mitigar los riesgos potenciales asociados con la tecnología de síntesis de voz de VALL-E,

es importante continuar monitoreando y abordando cualquier riesgo potencial que pueda surgir.

Related Articles

Leave a Reply

Back to top button
WP Twitter Auto Publish Powered By : XYZScripts.com