Miniaturas

El papel de la ética en la tecnología de texto a voz

Ananay Batra

Ananay Batra

- 5 minutos de lectura

La tecnología TTS impregna nuestro día a día y es esencial para nuestra existencia moderna. Una relación simbiótica que complementa nuestra productividad y revoluciona nuestra forma de consumir contenidos. Optimizar para ser eficientes es el lema de nuestro tiempo.

Pero como decía el famoso Tío Ben, "Un gran poder conlleva una gran responsabilidad", y eso también es cierto para las TTS. Su uso generalizado y sus implicaciones se sitúan en la zona gris de la ética. Casi el 40% de los usuarios tiene problemas de confianza con los asistentes de voz. Por lo tanto, es necesario establecer políticas y leyes concretas para frenar el uso injusto e ilícito de los TTS.

Es esencial abrir un debate sobre el papel de la ética en las ETT y evaluar las ambigüedades morales:

Manipulación con voz deepfake

El deepfaking es ya una realidad, tras una década de innovaciones en TTS y aprendizaje profundo. Se trata de un proceso razonablemente sencillo que solo requiere dos entradas: la voz de alguien que dicta un párrafo y el propio párrafo del texto.

Por eso no es raro que agentes con malas intenciones clonen voces reales para un uso ilegal. Por un lado, se utiliza la voz de una persona sin permiso; por otro, la voz sintetizada podría utilizarse para transacciones fraudulentas.

Los autores que utilizan voces deepfake para difundir declaraciones y noticias falsas en los medios de comunicación pueden tener consecuencias devastadoras al engañar y confundir a una gran audiencia desprevenida.

TTS invade la intimidad personal

Las empresas que ofrecen servicios TTS y asistencia por voz recopilan todo tipo de datos y deben garantizar la seguridad de los mismos. Como el micrófono de los altavoces inteligentes está siempre encendido para detectar palabras clave, capta sin querer muchos datos privados de los usuarios.

Los datos recogidos de esta manera podrían utilizarse para prácticas maliciosas y anuncios dirigidos. Es muy posible que los datos personales se vean comprometidos en caso de fallo de seguridad.

Miniaturas

Fuente: freepick

La responsabilidad de la seguridad de los datos frente a amenazas externas recae en la empresa. La legislación debe limitar al máximo la conservación de datos por parte de estos servicios.

Clonación de voz sin consentimiento

La propiedad intelectual es el derecho de la persona a sus ideas y creaciones. La voz entra en el ámbito de la propiedad intelectual (PI) personal que no puede reproducirse sin aprobación.

Hay que idear licencias y cánones que permitan el uso legal de la voz de alguien con el pago correspondiente. El desarrollo de nuevas tecnologías para distinguir entre voces reales y sintéticas es crucial en este momento.

Pelea entre actores de doblaje y voces de IA

A medida que el TTS vaya ganando adeptos en todos los sectores, irá sustituyendo a los locutores de carne y hueso. Aunque al principio pueda parecer preocupante, es un resultado natural y esperado de los avances tecnológicos y la automatización.

Miniaturas

Fuente: pixabay

La industria de la voz prosperará en conjunción y colaboración con las IA de voz y los TTS. Los trabajos que requieran modulaciones de voz detalladas y experimentadas quedarán reservados a los locutores humanos. Clonar la voz de un actor de doblaje podría crear vías para el consumo masivo y un rendimiento más rápido.

Ahora que conocemos mejor la ética que rodea a la TTS y la clonación de voces, veamos cómo podemos crear sistemas para evitar las malas prácticas:

Prevención de prácticas poco éticas en las ETT

Marca de agua incrustada en TTS

Los motores TTS pueden incrustar una peculiar marca de agua en la voz sintética, reconocible sólo para las IA y no para los humanos. Esto garantiza la autenticidad de las voces TTS bajo sospecha. Los informativos pueden utilizar esta función para discernir entre voces falsas y reales y permitir sólo discursos auténticos.

Leyes y normativas estrictas

Los países y las empresas tienen que imponer leyes estrictas que prohíban el uso no consentido de la voz de alguien y salvaguarden la propiedad intelectual tanto de los usuarios como de los locutores.

Las empresas que prestan servicios de TTS deben conceder licencias de uso de la voz a terceros con la debida verificación y responsabilidad. Ciertas prácticas y actividades perjudiciales pueden restringirse mediante la adhesión a contratos y certificados.

Miniaturas

Fuente: pixabay

Sensibilización del público en general

La ignorancia sobre el TTS y la IA de voz de tipo humano es la causa principal de las estafas y fraudes de voz. Hay que educar a la gente sobre la exactitud de la clonación de voz y desconfiar de las llamadas sospechosas que reciban.

Saber que incluso las noticias y la opinión pública pueden manipularse con un uso inadecuado de las TTS es un paso en la dirección correcta.

  1. Colaboración con actores de doblaje

Las TTS tienen que complementar a los locutores tradicionales, no competir con ellos. Aunque el desplazamiento de pocos puestos de trabajo es inminente, los artistas de la voz tienen que ser compensados por prestar su voz. Los contratos y las obligaciones legales son necesarios para un pago justo y para evitar el uso no autorizado.

Se necesitan sistemas que permitan a los artistas ganar por cada reproducción de su voz y durante un tiempo estipulado.

El TTS y la voz IA reducen drásticamente los costes de producción e impulsan el consumo habitual de medios de comunicación en formas alternativas. Los casos de uso son ilimitados, desde artículos de audio y doblajes de películas hasta una mejor educación para los discapacitados del aprendizaje.

A medida que avanza la tecnología TTS, necesitamos crear marcos que impidan su mal uso. Hay mucho que desenredar y repensar sobre las antiguas nociones de ética.

Si desea crear narraciones TTS orgánicas, Listnr proporciona TTS personalizable hasta el más mínimo detalle en el habla. Póngase en contacto con nosotros hoy mismo.

Preguntas frecuentes:

    • ¿Cómo se crean las voces de la IA?

Las voces de IA utilizan redes neuronales y aprendizaje profundo para sintetizar voces que suenen similares a las humanas. Hay muchos marcos de redes neuronales como Wavenet, Deepvoice y SP2TTS. Estos utilizan redes convolucionales junto con transformadores para el entrenamiento.

    • ¿Puedes falsear una voz?

Sí, las voces falsas son posibles con el aprendizaje profundo y las redes neuronales. El proceso puede dividirse en entrenamiento y prueba. En el entrenamiento, tienes que decir una serie de frases al motor de clonación, que se entrena con tu voz y el texto.

En las pruebas, se introduce el texto deseado para la conversión TTS. Con cada nuevo punto de datos, el motor se mejora a sí mismo.

    • ¿Cuál es el mejor generador de voz en off?

El mejor generador de voz en off ofrece personalizaciones generales al minuto y requiere una aportación mínima por parte del usuario. Un motor TTS que se ajuste a tus necesidades será el que mejor te funcione.

Listnr TTS proporciona ajustes detallados con un conjunto de más de 570 voces y 75 idiomas. También ofrece un reproductor premium integrable para tus blogs y sitios web.

    • ¿Cuánto cuesta una grabación de voz en off?

Los costes de la grabación de locuciones pueden variar en función del locutor. Un locutor experimentado cobrará más y será más difícil de programar. El proceso de grabación puede durar horas, dependiendo de la destreza de la persona.

Ananay Batra

Sobre Ananay Batra

Fundador y CEO @ Listnr Inc

← Genera las locuciones en hindi más definitivas con...← Ver todas las entradasArtículos de audio 101: Qué son y por qué deberían... →

Todos los derechos reservados.