“Confirme que não é uma voz falsa”: a IA na rádio e nos podcasts
Será possível existir um podcast gerado totalmente por IA – desde o desenho do guião do episódio, a estória, a voz do narrador e das personagens, à imagem de capa do podcast – nas plataformas habituais? Não só é possível, como é arrebatadora a semelhança da voz sintética com a voz humana. Vamos um pouco mais longe: Será possível, também, ouvir uma emissão de rádio apresentada por um/uma apresentador/a gerado totalmente por IA? Mais uma vez, não só é possível, como já existe. E tem conta de Instagram.
Comecemos pelo início. Após o lançamento do ChatGPT no final de 2022, surgiu a RADIO GPT (hoje conhecida como FUTURE AudioAI) em fevereiro do ano seguinte, lançada pela empresa FUTURI Media. Este software de IA combina a tecnologia GPT-4 com o sistema de descoberta de histórias e conteúdo social gerado por IA da empresa e da tecnologia TopicPulse. Desta forma, consegue produzir conteúdos para media locais, numa lógica semelhante à das rádios tradicionais, que inclui blocos informativos, meteorologia e avisos de tráfego.
Mas este software promete mais do que isso: a Future AudioAI faz publicações nas redes sociais durante a emissão e avisa sobre o que se segue; consegue gerar listas de músicas para os ouvintes e o/a apresentador/a de IA recebe essas informações, consegue ter uma conversa sobre as músicas ou sobre os artistas durante a própria emissão ou mesmo criar podcasts. Mas há mais, muito mais.
Jornalismo e AI: uma história de outros tempos
A História da Inteligência Artificial tem séculos de existência. No jornalismo, porém, tem mais de dez anos. A IA auxilia os profissionais desde 2008, primeiro em pequenas operações, agora em aspetos mais sofisticados. A Associated Press tornou-se, em 2014, a primeira agência de notícias a utilizar IA para recolher, produzir e distribuir conteúdos em alguns setores como a economia e o desporto (ao utilizar um software baseado em NPL) e o The Los Angeles Times, no mesmo ano, o primeiro jornal dos EUA, indica uma investigação académica.
Quatro anos depois – e ainda antes do lançamento do ChatGPT e da FUTURI AudioAI – o cenário da utilização da IA começava a dar sinais no meio. Investigadores fizeram um mapeamento no jornalismo e chegaram à conclusão de que no final de 2018 existiam 16 órgãos de comunicação social, 21 empresas e 13 agências de notícias que utilizavam a tecnologia de IA para produzir textos jornalísticos. Nesta amostra, incluía-se a agência de notícias Reporters And Data And Robots (RADAR) que produziu e distribuiu mais de 30 mil notícias locais sem qualquer intervenção de jornalistas – para isso recorreu a bancos de dados de empresas e órgãos públicos e governamentais.
Hoje, assistimos ao nascimento de redações totalmente sintéticas. No início de 2023, uma investigação académica identificou os primeiros media outlets que fazem a produção e distribuição de notícias exclusivamente com máquinas de IA, sem qualquer intervenção dos jornalistas. Os investigadores chamaram a estas redações media sintéticos (em inglês, synthetic media) e identificaram quatro: a JX Press Corp, noJapão, a Reuters New Tracer, no Reino Unido, a News Republic, na França e a Videre AI, na Espanha.
O crescente uso da IA começou, também, a verificar-se nos círculos dedicados à rádio e às produções sonoras. Na edição do RadioDays de 2023, foi discutido o papel da IA na rádio – da investigação, da produção até à distribuição de notícias – entre especialistas da área. Cinco usos da IA para a rádio foram compilados num artigo: (1) Clonar vozes de apresentadores de rádio para serem utilizados (como, por exemplo, na Sveriges Radio); (2) Voz gerada por IA como marca de rádio para desporto. A Prisa Radio, de Espanha, já utiliza uma, a Victoria; (3) Tradução de histórias sonoras para outra língua, software de IA que a European Broadcasting Union (EBU) utiliza e que facilita a comunicação entre países; (4) IA para criar publicidade mais dinâmica e automática; e (5) Apresentadores de rádio gerados pela tecnologia da RadioGPT. Chegamos à era do sintético?
Podcasts de (e não sobre) Inteligência Artificial: A era das estórias sintéticas?
Produzir um podcast com a ajuda da IA não é cenário de filme futurista. No quarto da própria casa ou num banco de jardim, qualquer pessoa pode criar o seu podcast com a ajuda de ferramentas artificiais criadas por start-ups como o Podcastle ou o WondercraftAI ou de softwares como o Adobe Podcast ou o Meliva. Também no campo musical o mesmo acontece, principalmente para recuperar vozes do passado – basta relembrar que foi extraída a voz de John Lennon de músicas dos Beatles através de IA para compor a última música da banda inglesa.
Ouvir um podcast totalmente gerado por IA consegue surpreender. A era das estórias e das vozes sintéticas não é novidade, e começa com a decisão de alguém em criar algo. O quê, como, porquê, quando, quem e onde é decisão da IA. Exclusivamente da IA.
O Synthetic Stories é um exemplo. A narrativa, o guião da história, o design sonoro, as vozes de cada personagem, as imagens de capa, a descrição de cada episódio nas plataformas de distribuição: todo o processo é gerado totalmente por machine learning, sem intervenção humana.
Este podcast foi lançado em 2023 e tem três episódios, cada um com uma estória diferente, em que a voz sintética, por vezes, engana o ouvido. As respirações, os maneirismos da fala humana, a intensidade de cada cena e a mudança de humor são muito semelhantes a um humano. Há uma certa estupefação depois da escuta, não só pela claridade da voz, mas também pelo teor das estórias. Quando se pensa que não haverá um plot twist na estória, ali está, a acontecer mesmo nos nossos ouvidos.
Mas o Synthetic Stories ou o BoredHumans (um podcast que também segue a mesma lógica) não foram, de longe, os primeiros a lançar um conteúdo deste cariz. Ainda antes do ChatGPT e das ferramentas que, entretanto, se sofisticaram, o Roborah podcast, produzido por Ricky Vuckovic, é o podcast mais antigo gerado por AI. Foi lançado em 2017, ainda antes da IA se tornar num assunto mainstream. O podcast tinha, inclusive, dois apresentadores gerados por AI, a Jess e o Spencer, que falavam e debatiam sobre assuntos atuais e triviais e ainda escreviam poesia ou cantavam músicas da sua autoria. Terminou em 2021.
Mais se seguiram depois de 2017. No género da comédia, o The Lexman Artificial Podcast foi totalmente criado em 2018 através da tecnologia da OpenAI e todo o enredo é gerado por IA. Só dois anos depois, em 2020, é que outro podcast deste género foi produzido, o Daily Dad Jokes, que agora pertence à empresa iHeart Audio Media.
No caso de podcasts que utilizam a entrevista como género, o The Joe Rogan AI Podcast é outro caso em particular: é utilizada a voz do apresentador e de um entrevistado, ambos gerados por IA. No primeiro episódio, a título de exemplo, o avatar de Joe Rogan entrevista o avatar de Sam Altman, CEO da Open AI. O podcast, apenas disponibilizado no Youtube, chamou a atenção do próprio Joe Rogan que escreveu na rede social X (antigo Twitter): “This is going to get very slippery, kids.”.
Por outro lado – e como já se assistiu no campo musical – a AI permite que outras vozes, de outros tempos, regressem aos nossos dias. É o caso do Podcast.ai queusa vozes de personalidades conhecidas do público e coloca-as em debate, numa conversa improvável. Num dos episódios pode-se ouvir Lex Fridman a entrevistar Richard Feynman, por exemplo. O episódio, ao estilo de Feynman, tem a sua quota parte de humor.
Já os podcasts de ficção, esses, são outra história. O AI Radio é um podcast que simula um programa de rádio em que explora variados temas e entrevista especialistas que não existem. Na rádio, o cenário não é muito diferente.
Aina e a AIRAH, as apresentadoras de IA que têm Instagram
No livro Máquinas como eu (Gradiva, 2019) de Ian McEwan, a história acontece numa linha temporal alternativa da Londres de 1980 – o próprio Alan Turing não tinha morrido e vivia com o seu companheiro. A personagem principal, Charlie, compra um dos primeiros exemplares de ‘seres humanos sintéticos’ e em conjunto com Miranda, a sua namorada, começam a construir o caráter de Adam, o novo inquilino sintético. O desenrolar desta história direciona o/a leitor/a para várias questões, mas há uma que é evidente: O que nos faz realmente ser humanos? Ou melhor, o que nos diferencia das máquinas? O próprio título é uma provocação.
Questões filosóficas à parte, a verdade é que quando se tenta representar a IA, a maioria das vezes é feita com feições, proporções e gestos humanos. Veja-se o caso deste livro, dos filmes de O Exterminador Implacável ou de Ex Machina, por exemplo, que incorporam uma entidade sintética dentro de um corpo com características humanas. O mesmo tem vindo a acontecer com os/as apresentadores de rádio.
A AIRAH (Artificial Intelligence Radio Host) é a primeira mulher apresentadora de rádio (AI DJ host) do mundo. Pode ser ouvida no programa da manhã da rádio MIRCHI, uma emissora do Dubai, e apresenta-se ao mundo através do Instagram “muito entusiasmada por trabalhar com esta equipa”. Na rede social podem ser encontradas fotografias com a restante equipa e curiosidades sobre os programas da antena e dos Emirados Árabes Unidos.
Na Ásia, Aina Sabrina é o nome da apresentadora gerada por IA na Fly FM. Esta emissora na Malásia resolveu apostar nesta estratégia e criou, também, uma conta de Instagram. A comunicação nesta rede social é mais ativa e com características mais empáticas e humanas com o público em comparação com a AIRAH. As fotografias publicadas são geradas por IA vê-se Aina a conviver com as amigas (geradas por IA), ou em locais do mundo por onde, supostamente, viajou, ou outras publicações em que partilha a sua ansiedade sobre a emissão daquele dia.
Porém, nem Aina nem AIRAH foram as primeiras apresentadores de programas radiofónicos. Uns meses antes, em abril de 2023, JAY AI tornou-se o primeiro apresentador de IA a apresentar um programa em antena, na rádio Heart FM, na África do Sul. Depois da experiência, de uma única emissão, não houve continuação, mas foi a primeira vez que o mundo – ou a comunidade – ouviu uma emissão totalmente sintética.
Experiências como estas são indicativos da forma como as redações tentam inovar na produção e nos conteúdos. A experiência híbrida da KBFF, Live 95.5, uma rádio do estado de Oregon, nos EUA é outro exemplo. Esta emissora decidiu criar a Ashley AI, uma apresentadora gerada por Inteligência Artificial que utiliza a mesma voz que a apresentadora verdadeira, Ashley Elzinga.
Para o efeito, foram utilizadas as ferramentas da Future AudioAI para gerar a “nova” voz e a emissora garantiu que a ideia era de abraçar a tecnologia e colocá-la numa posição em que o humano não seja totalmente substituído. Apesar de não ter conta na rede social, foi gerada uma fotografia em IA da apresentadora para anunciar a mudança de situação na emissora na rede social X (antigo Twitter).
Porém, também é importante avaliar o impacto que as audiências têm com a transmissão e com o consumo deste tipo de conteúdos com recurso a esta tecnologia. Uma rádio suíça testou o formato e as respostas da audiência revelaram uma ambivalência interessante.
‘Confirme que não é uma voz falsa’
A rádio Couleur 3, na Suíça, decidiu fazer uma emissão de 13 horas totalmente geradas por IA, em que as cinco vozes de cinco apresentadores de rádio foram clonadas através de IA nos programas de 27 de abril de 2023, entre as seis da manhã e as 19 horas. Durante a emissão, a IA gerou as listas de músicas e a escrita dos guiões foi da autoria do ChatGPT. Apenas os blocos informativos foram a exceção, os únicos que tiveram intervenção de jornalistas.
O público foi desafiado a deixar a sua opinião na aplicação Whatsapp e a cada vinte minutos a voz gerada por IA recordava que era um robô. As mensagens do público dividiram-se entre um misto de espanto e de desconfiança. Algumas delas disseram que “é impressionante o que se pode fazer com esta ferramenta”, e outras “(…) há algo estranho e as piadas são planas”. Os responsáveis chegaram mesmo a receber uma mensagem que dizia: “Devolvam-nos os nossos humanos!”, lê-se.
Antonine Multone, chefe da antena da RTS Couleur 3, referiu que “não é fácil distinguir quem fala, um humano ou um robô. Por outro lado, esta experiência também nos mostra que a criatividade, a surpresa e o humor continuam a ser uma característica muito humana – e isso tranquiliza-nos, mesmo que não duvidemos disso desde o início do projeto. Este dia mostra-nos o caminho a seguir: trabalhar no valor agregado e na originalidade do nosso conteúdo.”
Esta experiência, à semelhança de podcasts e de apresentadores gerados por AI, levanta questões relacionadas com a fiabilidade da voz e das consequências da utilização desta tecnologia, não só em relação a imagens e vídeos, mas também ao áudio.
Com a crescente utilização de IA, a Intel lançou em novembro de 2022 o FakeCatcher, um detetor em tempo real de deepfakes que permite verificar e analisar o que foi gerado por IA. No que diz respeito ao áudio, e mais concretamente à voz, medidas começaram a ser tomadas quando a indústria musical começou a sofrer um abalo significativo com a introdução da IA. A falsificação e a utilização de vozes de artistas para criar músicas e demos sem a autorização dos mesmos já é possível com o Vocify.ai, e em outubro de 2023 a RIAA – a Associação de Indústria de Gravação dos EUA – lançou uma medida para que seja legislada a clonagem de vozes com IA.
No entanto, não é apenas na indústria musical que a utilização de vozes falsas, clonadas ou geradas por IA, podem originar crises. A utilização destas deepfakes estão a movimentar-se da periferia para o centro da criminalidade digital e no aumento de desinformação. Um exemplo é o caso de Omar al-Bashir, antigo líder do Sudão. Não é visto desde 2022 e a especulação aumentou no país com o seu desaparecimento. Até que “gravações vazadas”, como apelidaram os vídeos partilhados na rede social Tik Tok com a sua voz do antigo líder, amplificaram, ainda mais, as tensões sentidas no país. Contudo, comprovou-se que afinal a voz era falsa e gerada por IA.
As semelhanças entre uma voz clonada ou sintética de uma voz humana são cada vez maiores e tal semelhança pode ser constatada nos podcasts sintéticos e na voz das apresentadoras de rádio, a Aina e a AIRAH. Porém, ainda está em falta o fator humano, como alegaram os ouvintes da emissão da rádio Couleur 3: há qualquer coisa de “plano” na piada, ou talvez uma falte uma pequena – mas grande e impactante para o ouvinte – emoção na voz, que consiga ser o indicador de que aquela é, ou não, uma voz humana.
À medida que os meses avançam para mais um ano, inovadoras e transformadoras ferramentas surgem nos mais variados setores, incluindo no jornalismo, na rádio, nos podcasts. Com estes avanços, à semelhança do quadradinho que aparece quando se preenche um formulário “Não sou um robô”, talvez num futuro muito próximo, para qualquer atividade que envolva música, som e palavra dita – como na rádio e nos podcasts -, seja necessário confirmar que não é uma voz falsa.
Referências bibliográficas
- BBC (julho, 2023). Intel’s deepfake detector tested on real and fake videos. https://www.bbc.com/news/technology-66267961
- Calvo-Rubio, L.M. (Luis Mauricio); Ufarte-Ruiz, M. J. (M-José). Artificial intelligence and journalism: Systematic review of scientific production in Web of Science and Scopus (2008-2019). Communication & Society. 34 (2), 2021, 159 – 176. http://dx.doi.org/10.15581/003.34.2.159-176
- Canavilhas, J. (2023). Produção automática de texto jornalístico com IA: contributo para uma história. Textual & Visual Media, 17(1), 22-40. https://doi.org/10.56418/txt.17.1.2023.2
- Goodman, J. & Hashim, M. (outubro, 2023). AI: Voice cloning tech emerges in Sudan civil war. https://www.bbc.com/news/world-africa-66987869?utm_source=podnews.net&utm_medium=web&utm_campaign=podnews.net%3A2023-10-06&actId=ebwp0YMB8s0XXev-swTWi6FWgZQt9biALyr5FYI13OqF_zhgok6XBlLGR2sAlkzo&actCampaignType=CAMPAIGN_MAIL&actSource=829150
- Hart, J. (junho, 2023). World’s first radio station with an AI DJ’: Oregon’s Live 95.5 uses a cloned human voice to host segments. https://www.businessinsider.com/ai-powered-dj-radio-show-host-portland-oregon-station-2023-6
- King, A. (outubro, 2023). RIAA Adds ‘Voice Cloning’ Category to Notorious Markets List. https://www.digitalmusicnews.com/2023/10/11/riaa-voice-cloning-notorious-markets-list/
- McEwan, I. (2019). Máquinas como Eu. Lisboa: Gradiva
- Rowe, L. (maio, 2023). AI in Radio? The Pros and Cons of 5 Case-uses. https://radio.co/blog/ai-radio-pros-cons
- RTS, Radio Télevision Suisse (abril, 2023). Intelligence artificielle sur RTS-Couleur 3 : «Rendez-nous nos humains!». https://www.rts.ch/entreprise/espace-pro/communiques-de-presse/13976724-intelligence-artificielle-sur-rtscouleur-3-rendeznous-nos-humains.html
- TMO Reporter (abril, 2023). Meet Jay I, South Africa’s first AI radio personality. https://themediaonline.co.za/2023/04/meet-jay-i-south-africas-first-ai-radio-personality/
- Ufarte-Ruiz, M.-J., Murcia-Verdú, F.-J. ., & Túñez-López, J.-M. (2023). Use of artificial intelligence in synthetic media: first newsrooms without journalists. Profesional De La información Information Professional, 32(2). https://doi.org/10.3145/epi.2023.mar.03
- Vicent, Benjamin (novembro, 2021). Les deepfakes désormais proches de la perfection grâce au clonage vocal. https://www.francetvinfo.fr/replay-radio/nouveau-monde/les-deepfakes-desormais-proches-de-la-perfection-grace-au-clonage-vocal_4819557.html?actId=ebwp0YMB8s0XXev-swTWi6FWgZQt9biALyr5FYI13OqF_zhgok6XBlLGR2sAlkzo&actCampaignType=CAMPAIGN_MAIL&actSource=829150