Os filtros vocais de IA estão aqui para ficar

A crescente atenção dada à tecnologia deepfake de IA nos últimos anos se concentrou principalmente em truques visuais. Pense em vídeos capazes de sobrepor estranhamente o rosto de uma pessoa ao corpo de outra geração de arte surreal com base nas sugestões dos usuários e na ética problemática que envolve todas essas habilidades. Mas outro método-chave para convencer imitações digitais é apenas recentemente obter um exame e uma discussão adequados.

Os filtros vocais, embora não sejam necessariamente novos, só recentemente começaram a ser levados mais a sério graças à assistência da IA. Infelizmente, ele apresenta sua própria série de sérias implicações sociais e, como a indústria de deepfake de vídeo, parece haver pouco que os reguladores possam fazer para detê-lo.

[Related: A startup is using AI to make call centers sound more ‘American.’]

Ferramentas de IA emergentes, como Koe Recast e Voice.ai, estão aprimorando rapidamente sua capacidade de transformar entradas de áudio para soar como praticamente qualquer pessoa que se queira, desde que forneçam material de origem suficiente para analisar. Em alguns casos, esses programas precisam apenas de um clipe entre 15 e 30 segundos para gerar imitações convincentes. Embora Koe Recast esteja apenas em sua fase de teste alfa privado, exemplos já estão disponíveis descrevendo um breve segundo clipe de Mark Zuckerberg soando como um narrador pesado, uma mulher e até um personagem de anime estridente.

“Meu objetivo é ajudar as pessoas a se expressarem de qualquer maneira que as deixe felizes”, disse Asara Near, criadora da Koe Recast no Texas. Ars-Technica em uma entrevista na semana passada. Near acrescentou que pretende lançar um aplicativo de desktop capaz de transformar as vozes dos usuários em tempo real em plataformas como Discord e Zoom. Quando perguntado sobre o potencial de maus atores usarem o Koe Recast para ataques pessoais e desinformação, Near argumentou que, “Como acontece com qualquer tecnologia, é possível que haja pontos positivos e negativos, mas acho que a grande maioria da humanidade consiste em maravilhosos pessoas e se beneficiarão muito com isso.”

[Related: How artificial intelligence exploded over the past decade.]

Os críticos, no entanto, permanecem céticos quanto a confiar no público em geral com essas ferramentas potencialmente caóticas. Recentemente, alguns representantes de call center terceirizados também começaram a usar software de IA para apagar os sotaques de seus países de origem, a fim de soar mais “americanos” na tentativa de mitigar os preconceitos do consumidor ocidental. Enquanto os criadores da ferramenta argumentam que sua invenção previne o preconceito, muitos responderam que ela simplesmente fornece um meio para evitar lidar com os problemas maiores em questão – ou seja, xenofobia e racismo.

Da mesma forma, funcionários de algumas empresas maiores foram vítimas de golpistas que solicitam transferências de fundos e senhas enquanto utilizam imitação de áudio semelhante para imitar os chefes. “Entre as empresas maiores, acho que cada vez mais estão começando a ver isso porque são alvos realmente maduros para esse tipo de coisa”, Kyle Alspach, repórter de segurança cibernética da Protocolo, explicou enquanto falava recentemente no NPR’s Mercado.

Embora Alspach também tenha notado que esses tipos de golpes ainda estão em sua infância, provavelmente não demorará muito para que essas táticas se tornem mais comuns e, infelizmente, mais difíceis de distinguir fato de ficção. Então, infelizmente, simplesmente não há como parar a rápida escalada do mimetismo visual e de áudio habilitado para IA.

Leave a Comment