Por que sotaque é a pedra no sapato da IA de voz
Brasil não é um único português. É o “s” chiado carioca convivendo com o “r” alveolar gaúcho, o “t” que vira “tch” antes de “i”, as expressões do Nordeste que puxam a melodia da frase, o ritmo do Norte, a neutralidade predominante em noticiários do Sudeste e o vocabulário do Centro-Oeste que mistura interior e capital. Modelos de reconhecimento automático de fala e de síntese de voz foram treinados durante anos com corpus mais “padrões”, o que tende a favorecer entonações e dicções de centros de mídia. O resultado é que, quando saímos do sotaque majoritário no treinamento, a fricção aparece: palavras trocadas, gírias “corrigidas”, nomes próprios simplificados e vozes sintéticas que soam “estrangeiras” à comunidade local. Para além da curiosidade, isso impacta acessibilidade, atendimento digital e confiança no contato com o poder público e com marcas privadas.
Como fizemos o miniteste (e o que não conseguimos fazer)
Como prova de conceito editorial, definimos um roteiro único com dez frases curtas de uso cotidiano e gírias, além de cinco nomes próprios e logradouros típicos para cada uma das cinco macrorregiões: Norte, Nordeste, Centro-Oeste, Sudeste e Sul. O ideal seria gravar leituras reais com voluntários de cada região, em ambientes domésticos diferentes e com celulares variados, para avaliar reconhecimento (transcrição) e síntese (naturalidade da voz devolvida pela IA ao ler as mesmas frases). Não realizamos coletas de áudio reais; simulamos o cenário com base em variações fonéticas conhecidas e em padrões de erro observados em projetos anteriores, registrando as limitações: sem amostra acústica real e sem controle de microfones, ruído e velocidade de fala, não há como aferir taxas de acerto, apenas discutir tendências. Onde um dado objetivo dependeria de medições instrumentadas, usamos o rótulo “não informado oficialmente”.
No roteiro, as dez frases refletiam situações comuns: pedir rota para “Avenida Beira-Mar”, confirmar agendamento no posto de saúde, ditar um endereço com número e complemento, perguntar “tá de boa?” ou “bah, ficou tri”, usar “oxe, arretado” e “pai d’égua”, além de variações de números e abreviações como “quadra”, “lote” e “Eixo”. Para estressar nomes próprios, selecionamos, como exemplo, “Avenida Eduardo Ribeiro” e “Teatro Amazonas” para o Norte; “Rua do Bom Jesus”, “Avenida Beira-Mar” e “Praia do Futuro” para o Nordeste; “Eixo Monumental”, “Setor Comercial Sul” e “Parque da Cidade” no Centro-Oeste; “Avenida Paulista”, “Rua Augusta”, “Arcos da Lapa” e “Vila Madalena” no Sudeste; “Rua dos Andradas”, “Mercado Público”, “Bairro Moinhos” e “Lagoa da Conceição” no Sul. Acrescentamos nomes de pessoas com acentos e encontros consonantais que costumam confundir ASR, como “D’Ávila”, “Gonçalves”, “Ximenes” e “Wendell”, além de topônimos indígenas como “Xingu” e “Umuarama”.
O que o reconhecimento entendeu — e o que decidiu “corrigir”
No Norte, a combinação de toponímia indígena e entonações locais ainda desafia sistemas que esperam dicionários “urbanos”. “Xingu” tende a virar “Xingú” na transcrição sem acento correto, “Ananindeua” pode ser fatiado em duas palavras, e “pai d’égua”, expressão positiva, é frequentemente “corrigida” para “pai de égua”, invertendo sentido. Quando frases de GPS incluem “dobra à direita depois da ponte”, o “dobra” dito rápido, com “r” retroflexo suave, foi “lido” como “dobla” na simulação — um erro plausível de modelos com interferência do espanhol em nomes de via, especialmente próximos a fronteiras.
No Nordeste, o “oxe” é entendido algumas vezes como “oxe?” e outras como “oxe,” sem pontuação questionativa, o que muda a entonação pretendida na leitura sintética. “Arretado” aparece com frequência sem duplicar o “r” em transcrições autocorrigidas, e sobrenomes como “Ximenes” viram “Jimenez”, sugerindo vieses do vocabulário multilíngue. Em endereços, “Rua do Bom Jesus” já foi “Rua Dom Jesus” em mais de um engine testado em ocasiões passadas, refletindo confusão fonética. A sibilância final em “mas” versus “mais”, típica de algumas falas, também induz ambiguidades sem contexto.
No Centro-Oeste, termos como “quadra” e “lote” usados com números e letras formam sequências que confundem tokenização, com “Qd.” expandido para “Queda” e “Lt.” interpretado como “LT” em maiúsculas ditas como sigla. “Eixo Monumental” costuma ser bem reconhecido, mas “SCS” (Setor Comercial Sul) é arriscado se lido de forma corrida; a IA às vezes decompõe para “esse cê esse”, sem mapear ao termo local. Gírias importadas do interior do Sudeste e de Goiás, como “uai”, ficam neutras na transcrição, mas a síntese raramente devolve a melodia regional.
No Sudeste, o chiado carioca do “s” no final de sílaba é “normalizado” em transcrições e, sobretudo, em vozes sintéticas. “Os meninos” dita por um fluminense vira “os meninos” na escrita, mas a re-leitura não preserva o [ʃ], apagando identidade. Nomes como “Arcos da Lapa” são simples, porém “Vila Madalena” às vezes recebe capitalização inconsistente em módulos de NLP, o que afeta síntese que usa prosódia orientada por pontuação. Palavras com “ti” e “di” seguidas de “a/e/o”, como em “dia”, rendem palatalizações que a transcrição mantém, mas a síntese devolve de forma “neutra”, soando deslocada para quem espera o sotaque paulista ou fluminense.
No Sul, o “bah” e o “tri” de ênfase aparecem na transcrição, porém a síntese frequentemente exagera ou neutraliza a prosódia. “Rua dos Andradas” raramente falha, mas “Moinhos de Vento” já gerou “Moinhos de vento” sem capitalização correta do bairro em pipelines que misturam ASR e normalização de texto. O “r” final alveolar ou retroflexo leve pode ser normalizado para um “r” gutural quando a voz sintetizada usa um modelo “padrão Brasil”, o que destoa do ouvido local.
De modo geral, os erros curiosos se repetem: gírias regionais “corrigidas” para variantes de dicionário, nomes indígenas aproximados ao espanhol, siglas urbanas lidas como soletração sem entidade reconhecida, e prosódia que apaga melodias. Em todos os casos, métricas precisas de acerto e latência permanecem não informadas oficialmente sem um estudo controlado com gravações reais.
Como soam as vozes de volta naturalidade, mas pouca identidade
A síntese de voz evoluiu e alcançou naturalidade suficiente para tarefas do dia a dia. O gargalo atual, no entanto, é a capacidade de soar “daqui” sem caricatura. Quando pedimos ao sistema para reler “oxe, ficou arretado na Beira-Mar”, a voz padrão devolve entonação homogênea, com acento “neutro” que não corresponde a nenhuma fala cotidiana e, ao mesmo tempo, não comete erros fonéticos. Em alguns engines, há opções de vozes “regionais”, mas sua disponibilidade, documentação de treinamento e papéis de uso estão não informados oficialmente ou são inconsistentes. Tentar “forçar” sotaque via ortografia, escrevendo “tchi” para induzir palatalização, empobrece o texto e ainda compromete a inteligibilidade. O caminho mais promissor é permitir adaptação leve do timbre e da prosódia ao perfil do ouvinte, com consentimento, sem cair em estereótipos.
Implicações para acessibilidade e serviços públicos digitais
Para quem depende de acessibilidade, os tropeços não são detalhes: o leitor de tela que “corrige” gírias pode atrapalhar compreensão; o atendente virtual que não entende o nome do bairro pode atrasar uma solicitação de saúde; o agendamento no posto que pede soletração repetida esgota o usuário idoso. Em serviços públicos digitais, diversidade linguística não é “perfume”; é requisito de inclusão. Isso começa em dados: modelos precisam de exemplos reais e consentidos de fala de todas as regiões, com documentação clara de procedência e critérios de anonimização. Continua em desenho de serviço: permitir confirmação por múltiplos caminhos, de ditado a toques, reduzir fricção com repetição automática do que foi entendido e oferecer correção simples. E termina em governança: órgãos que adotam ASR/TTS devem medir igualdade de desempenho entre sotaques e publicar relatórios de progresso, mesmo quando números exatos de falhas permanecem não informados oficialmente por fornecedores.
O que aprendemos com o miniteste e por que isso importa para marcas
Mesmo sem gravações reais, o exercício revela dois padrões: reconhecimento tende a “normalizar” dialetos para o português escrito padrão e síntese tende a “apagar” matizes regionais. Para marcas, call centers e assistentes bancários, isso afeta empatia e resolução. Para a educação, compromete leitura em voz alta que deveria respeitar o repertório do aluno. Para o jornalismo e a pesquisa, a perda de diacríticos e a confusão de nomes próprios vira ruído de base. O remédio é técnico e cultural: ampliar corpus com diversidade, treinar adaptadores de sotaque com dados consentidos, permitir vozes que respeitem prosódia local sem estereótipos e, sobretudo, oferecer caminhos alternativos quando a fala não for compreendida de primeira.
Como caminhar para sistemas que entendem todo mundo
Há pragmatismo a adotar. Do lado do reconhecimento, investir em linguagem de domínio, dicionários de nomes próprios e ruas, aprendizado contínuo com feedback explícito do usuário e adaptação por sessão, sem guardar dados sensíveis sem consentimento. Do lado da síntese, permitir ajustes de velocidade, pausas e ênfase, e disponibilizar vozes com leve coloração regional documentada, produzidas com diretrizes de responsabilidade e sem caricatura. Em ambos os lados, transparência: explicar quando a IA “corrigiu” uma palavra, oferecer opção de manter gírias e registrar consentimentos de personalização. Onde políticas de retenção, treinamento com dados do usuário ou auditoria de qualidade não forem claras, rotular como não informado oficialmente e evitar decisões irreversíveis.
Conclusão
Sistemas de voz avançaram, mas ainda tropeçam no Brasil real, onde a língua é plural. O miniteste editorial simulado sugere que a tecnologia entende “o que” queremos, porém ainda decide “como” devemos falar ao devolver uma forma “padrão” que suaviza sotaques e gírias. Para serviços públicos, marcas e plataformas, isso é mais que detalhe: é inclusão. O caminho responsável combina dados diversos e consentidos, opções de voz que respeitem identidades, desenho de fluxo que reduz fricção e governança que mede equidade entre regiões. Quando a IA entende todo mundo e fala com todos de forma acolhedora a promessa de acessibilidade e eficiência finalmente deixa de ser uniforme e passa a ser verdadeiramente brasileira.