Transcrever áudios é uma atividade que demanda tempo e é essencial para pesquisadores, jornalistas e podcasters. Com o avanço da inteligência artificial, surgem ferramentas que podem transformar falas em textos, como é o caso do Audacity, um software popular e gratuito para captação e edição de áudios.
Recentemente, o Audacity recebeu diversas ferramentas de IA da Intel, como parte do pacote de plugins OpenVINO. Um desses recursos é a tecnologia Whisper, desenvolvida pela OpenIA, que possibilita a transcrição e tradução de áudios de forma mais eficiente.
O Whisper está integrado ao Audacity, sem custos adicionais, e oferece suporte a mais de 50 idiomas, incluindo o português. No entanto, a tradução funciona apenas de outros idiomas para o inglês, com a tradução inversa ainda não disponível.
É importante ressaltar que, no momento, o Audacity oferece transcrições com base no modelo mais simples do Whisper, o que pode resultar em resultados menos precisos devido à menor capacidade de treinamento da inteligência artificial.
Apesar disso, o uso da transcrição automática pode economizar tempo e agilizar parte do processo. Abaixo, o Giz Brasil mostra como transcrever áudios com IA através do Audacity.
A seguir, apresentamos os passos para a instalação e execução do plugin no Audacity.
**Instalação do OpenVINO:**
1. Baixe e instale o Audacity em um computador Windows, sendo necessário a versão 3.4.2 ou superior.
2. Acesse o GitHub do projeto OpenVINO.
3. Baixe os arquivos “OpenVINO-Module-3.4.2-R1.zip” e “openvino-models.zip”.
4. Extraia os arquivos para a pasta de instalação do Audacity.
5. Execute o Audacity.
6. Vá em Editar > Preferências.
7. Ative o módulo “mod-openvino” e reinicie o Audacity.
**Execução do OpenVINO:**
1. Importe o áudio desejado para o Audacity.
2. Selecione o áudio e vá em Analisar > OpenVINO Whisper Transcription.
3. Escolha “GPU” como dispositivo de inferência e “base” como modelo Whisper.
4. Selecione o modo “transcrever” e o idioma desejado.
5. Clique em “Aplicar” e aguarde a transcrição.
Ao finalizar a transcrição, o texto será exibido abaixo do áudio na linha do tempo, com as falas sincronizadas, facilitando a busca por frases específicas ou a criação de legendas. É possível exportar o conteúdo para aplicativos de edição de texto ou transformá-lo em legendas.