Nuevas startup se valen de la inteligencia artificial (IA) para desarrollar voces sintéticas a medida para las marcas.
A diferencia de las voces enlatadas que escuchamos hoy en día en los servicios de atención al cliente, las nuevas voces sintetizadas con inteligencia artificial suenan ya lo suficientemente humanas como para transmitir emociones cuidadosamente diseñadas que podrán actuar como una verdadera extensión de la marca. En los tiempos que corren, a medida que nuestras interacciones con las empresas van más allá de lo visual y lo verbal, ya sea gracias a Echo y Google Home o a los sistemas de atención al cliente automatizados, el tono, la calidad y la cadencia de la voz de una compañía se están convirtiendo en la nueva cara de la marca. El mundo del audio branding debe prestar especial atención a estos nuevos desarrollos.
Tal y como puede leerse en este artículo de la revista Fast Co.Design startups de generación de voces con inteligencia artificial declaran haber recibido ya cientos de solicitudes de empresas que están interesadas en desarrollar sus propias voces de marca. Y es que estas nuevas tecnologías ofrecen algo que la mayoría de las compañías probablemente no sabían que necesitaban hace tan solo cinco años: Una voz digital personalizada que suene como una persona real, no como un robot.
La voz puede ser un poderoso dispositivo de marca. Pensemos en la voz de los anuncios de Gas Natural Fenosa o los de Media Markt. Sin embargo, probablemente nos incomode como suena Alexa cuando cuenta un chiste. Esto se debe a que es verdaderamente difícil para las voces sintéticas, que imitan el habla humana, transmitir una emoción creíble con su cadencia robótica. La mayoría de estas voces computarizadas usan un método más antiguo de síntesis de voz llamado ‘modelo concatenativo’, que implica que locutor grabe hasta 200 horas de discurso; tras ello, todo ese discurso se divide digitalmente en pequeños fragmentos de sonido y finalmente se reconstituye en aquello que quiero decir.
El modelo de las nuevas empresas funciona de forma distinta. Solo se necesitan unas pocas horas de discurso de un actor de voz con las que se entrena una red neuronal profunda para imitar la voz de esa persona.
Empatía, emoción y carisma
Para las empresas que quieren que su marca sea consistente en todas las interfaces, el impacto de dicha tecnología podría ser importante.
¿Qué pasaría si cuando llamas a tu compañía de seguros para una expresar una queja esa voz monótona y vacilante del otro lado de la línea respondiera ahora como una persona real? Mejor aún, ¿y si respondiera con la misma voz corporativa que utiliza en todos sus anuncios?
Las marcas cada vez tendrán más voz y algunas voces de las marca podrán llegar a convertirse en icónicas. Los coches sin conductor, por ejemplo van a tener una voz, que exprese un sentimiento y una personalidad. Será muy importante para nuestra interacción con el coche; exacto, como el Coche Fantástico anticipó hace 30 años!
La credibilidad, el tono, la cadencia y el carisma de una voz es un activo de vital importancia para las empresas que desean establecer relaciones cercanas con sus usuarios. Y es que escoger una voz de marca es un acto identitario fuerte. Si un servicio de salud suena más como un amigo que como un robot, quizás sientas mayor afinidad hacia esa marca.
Por el momento, las voces computarizadas dejan poco espacio para expresar una personalidad o diversidad. Incluso los Asistentes de Google y Siris del mundo comparten la misma voz femenina neutral que carecen de cadencia emocional, lo que los hace prácticamente indistinguibles. Se hacen esfuerzos para dotar a chatbots e interfaces de voz con personalidad, pero la calidad sintética de su tono tiende a aplastar cualquier espacio para establecer una relación con los usuarios.
Pero las nuevas tecnologías permitirán que las voces de marca suenen mucho más realista y sea mucho más agradable interaccionar con ellas. Se está creando un nuevo mercado que podría cambiar la forma en que las personas consumen los medios.
Los avances son realmente fulgurantes: Google acaba de presentar su generador de palabras artificial ‘Tacotron 2’ mediante ‘natural TTS synthesis’, que incorpora, no solo pronunciación sinó también múltiples sutilezas del habla humana como volumen, entonación y velocidad. Aquí podemos escuchar algunos samples.
Pero…¿A quién se sintetiza?
Al igual que otras modalidades de IA pueden generar videos falsos, existen preguntas éticas sobre qué tipos de voces podrán sintetizarse. Estoy en contacto con una start-up de Barcelona que ha creado audios de Obama dando discursos falsos a modo de divertido ejemplo de sus capacidades, pero a medida que estas herramientas mejoren, sin duda deberán preocuparse por la ética y por las cuestiones legales.
Estamos ante una gran oportunidad para las marcas. En un futuro próximo se podrán crear librerías para licenciar voces sintéticas del mismo modo que hoy se hace con canciones o piezas musicales pero además de ello, desde el enfoque de la identidad sonora y sus adaptaciones, las empresas deberán ser capaces de crear voces exclusivas para sus clientes para transmitir emociones. Voces que hablen por ellas y por sus valores.