Voice Agents no Microsoft Foundry: como desenhar experiências de voz em tempo real sem criar uma URA com IA

Toda vez que uma tecnologia nova aparece, existe uma tendência perigosa de repetir o erro antigo com uma embalagem mais moderna.

Com voz e inteligência artificial, esse risco é enorme.

Durante anos, empresas trataram atendimento por voz como uma experiência burocrática: menus longos, URA confusa, opções que não resolvem, transferência para o setor errado e aquela sensação de que o cliente está lutando contra a máquina. Agora, com modelos em tempo real e agentes de voz, muita gente corre o risco de fazer a mesma coisa: criar uma URA mais bonita, com voz mais natural, mas ainda ruim do ponto de vista de arquitetura, experiência e resolução.

Por isso, a evolução de fevereiro de 2026 no Microsoft Foundry merece atenção. A Microsoft registrou a disponibilidade dos modelos GPT-Realtime-1.5 e GPT-Audio-1.5, construídos sobre as versões anteriores de GPT-Realtime e GPT-Audio, com melhorias em seguimento de instruções, suporte multilíngue e tool calling, preservando baixa latência para aplicações voice-first. No mesmo período, a documentação do Speech Service também registrou a integração em preview de Voice Agent com Foundry Agent Service, com suporte a SDKs em Python, Java, C# e JavaScript.

Esse movimento é importante porque voz deixa de ser apenas entrada e saída. Voz começa a virar interface para agentes.

Voz não é só áudio

O primeiro erro em projetos de voice AI é tratar voz como um canal de áudio.

Voz não é apenas áudio. Voz é contexto, ritmo, interrupção, intenção, emoção, urgência, ambiguidade e expectativa de resposta imediata.

Quando uma pessoa digita uma pergunta, ela tolera alguns segundos a mais. Quando fala, a expectativa muda. Silêncio longo parece falha. Resposta lenta parece travamento. Interrupção precisa ser entendida. Correção precisa ser aceita. Frase incompleta precisa ser interpretada. E, em muitos casos, a pessoa espera que o agente faça algo, não apenas responda.

Por isso, voice agent não pode ser desenhado como chatbot com microfone.

Um chatbot pode esperar o usuário escrever. Um voice agent precisa lidar com tempo real.

O que muda com GPT-Realtime-1.5 e GPT-Audio-1.5

A Microsoft posiciona os modelos GPT-Realtime-1.5 e GPT-Audio-1.5 como evolução dos modelos anteriores, com foco em três pontos que importam muito para aplicações de voz: melhor seguimento de instruções, suporte multilíngue e tool calling, preservando interações de baixa latência para aplicações voice-first.

Esses três pontos não são detalhes.

Seguimento de instruções é essencial porque um agente de voz precisa obedecer limites. Ele não pode falar qualquer coisa, prometer qualquer coisa ou fugir do processo.

Suporte multilíngue é importante porque atendimento por voz raramente vive em um mundo perfeito de idioma único, sotaque único e frase bem formulada.

Tool calling é o que separa um agente que conversa de um agente que resolve. Sem ferramentas, ele responde. Com ferramentas, ele pode consultar pedido, abrir chamado, verificar disponibilidade, buscar informação ou iniciar um fluxo.

A baixa latência fecha o conjunto. Voz sem baixa latência vira frustração.

A diferença entre atendimento por voz e agente de voz

Atendimento por voz tradicional normalmente trabalha com árvore de decisão.

Aperte 1 para financeiro.
Aperte 2 para suporte.
Aperte 3 para falar com atendente.
Digite seu CPF.
Repita a informação.
Aguarde.

Um agente de voz deve funcionar de outra forma. Ele precisa entender intenção em linguagem natural, manter contexto, fazer perguntas de esclarecimento, chamar ferramentas, lidar com interrupções e escalar para humano quando necessário.

Mas isso não significa dar liberdade total ao agente.

Um bom voice agent precisa ter escopo tão claro quanto qualquer sistema corporativo. O fato de a voz parecer humana não significa que o agente possa agir como humano sem limite.

A pergunta correta é: o que esse agente pode resolver com segurança em tempo real?

O problema da latência

Latência é um dos pontos mais críticos em voice agents.

Em texto, uma resposta de três ou quatro segundos pode ser tolerável. Em voz, três segundos de silêncio parecem uma eternidade. A pessoa acha que caiu, que travou ou que o sistema não entendeu.

Por isso, arquitetura de voz precisa pensar diferente.

Não basta escolher o modelo. É preciso pensar no pipeline inteiro:

captura de áudio;
transcrição ou processamento multimodal;
interpretação da intenção;
chamada de ferramenta;
resposta do sistema externo;
geração da resposta;
síntese de voz;
streaming de áudio;
tratamento de interrupção.

Cada etapa adiciona tempo.

Se uma ferramenta demora demais, a experiência quebra. Se o agente pensa demais, a conversa perde naturalidade. Se o sistema externo é lento, o problema aparece na voz.

A documentação de Speech Service em fevereiro de 2026 também destacou guias para melhorar tool calling e latência com respostas intermediárias, adicionar mensagens proativas e lidar com interrupções de voz no histórico do chat. Isso mostra que a Microsoft está tratando voz como experiência em tempo real, não como simples conversão de áudio.

Resposta intermediária não é detalhe

Em voz, resposta intermediária é arquitetura de experiência.

Imagine que o usuário pergunta:

“Você consegue verificar se meu pedido já saiu para entrega?”

Se o agente fica em silêncio enquanto consulta o sistema, a experiência parece quebrada. Uma resposta intermediária melhora muito:

“Claro, vou verificar o status do pedido agora.”

Depois, enquanto a ferramenta consulta o backend, o agente mantém o usuário orientado.

Isso parece simples, mas muda a percepção.

O usuário entende que o agente ouviu, entendeu e está executando. Essa pequena resposta reduz ansiedade e dá tempo para o sistema trabalhar.

Em texto, isso é opcional. Em voz, é praticamente obrigatório.

Tool calling em voz exige mais cuidado

Tool calling em texto já exige governança. Em voz, exige ainda mais.

Quando o usuário está falando, a intenção pode ser ambígua. Ele pode mudar de ideia no meio da frase. Pode interromper. Pode corrigir um dado. Pode usar linguagem informal. Pode pedir algo sem fornecer todas as informações.

Um agente de voz que chama ferramentas precisa saber quando agir e quando perguntar mais.

Exemplo ruim:

Usuário: “Cancela isso aí.”
Agente: “Pedido cancelado.”

Isso é perigoso.

O agente precisa confirmar:

“Você quer cancelar o pedido número 1234? Essa ação pode não ser reversível. Posso prosseguir?”

Em ações de leitura, o risco é menor. Em ações de escrita, confirmação é obrigatória.

A regra que eu usaria é simples:

Consulta pode ser mais automática.
Alteração exige confirmação.
Ação irreversível exige confirmação forte.
Ação sensível exige humano.

Voice agent não deve tentar resolver tudo

Existe uma tentação de criar um agente de voz universal.

“Ele atende cliente, vende, responde suporte, abre chamado, consulta pedido, resolve financeiro e ainda faz recomendação.”

Isso é o caminho mais rápido para criar uma experiência ruim.

Voice agents precisam começar com escopo específico.

Um bom primeiro caso poderia ser:

triagem de suporte;
consulta de status;
agendamento simples;
FAQ orientado;
coleta inicial de dados;
direcionamento para humano;
assistente interno para vendedores;
suporte a campo;
checklist operacional por voz.

O primeiro projeto não deveria ser “substituir atendimento”. Deveria ser resolver uma fatia clara de atendimento.

Exemplo prático: agente de voz para suporte interno

Imagine uma empresa criando um agente de voz para suporte interno de TI.

A missão não seria “resolver tudo de TI”. Seria:

Ajudar colaboradores a registrar problemas comuns, consultar orientações básicas e abrir chamados com informações mínimas suficientes, escalando para humano em casos críticos.

Esse escopo é bom porque tem limite.

O agente pode perguntar:

“Qual sistema você está tentando acessar?”
“Você recebeu alguma mensagem de erro?”
“Isso está impactando uma reunião ou atividade urgente?”
“Você já tentou redefinir a senha?”
“Posso abrir um chamado com essas informações?”

O agente pode chamar ferramentas:

consultar status de serviço;
abrir ticket;
buscar artigo interno;
verificar categoria do problema;
registrar prioridade inicial.

Mas ele não deve:

alterar permissão sozinho;
resetar acesso privilegiado sem validação;
executar ação administrativa;
prometer SLA fora da política;
coletar senha;
expor dados sensíveis.

Esse desenho é simples, mas já evita muita coisa.

Uma instrução inicial para o agente

Uma instrução base poderia ser:

Você é um agente de voz para suporte interno de TI.

Seu objetivo é entender o problema do colaborador, fazer perguntas objetivas, consultar orientações aprovadas e abrir um chamado quando necessário.

Fale de forma clara, curta e natural.

Não solicite senhas, tokens ou informações sensíveis.

Não execute alterações administrativas.

Antes de abrir um chamado, confirme o resumo com o usuário.

Se o problema envolver acesso privilegiado, segurança, indisponibilidade crítica ou dados sensíveis, encaminhe para atendimento humano.

Quando precisar consultar uma ferramenta, avise o usuário com uma resposta breve, como: "Vou verificar isso agora."

Repare que a instrução não tenta fazer o agente parecer humano demais. Ela tenta fazer o agente ser útil, seguro e previsível.

Arquitetura base de um voice agent

Eu desenharia um voice agent em camadas.

1. Camada de canal de voz
Responsável por capturar áudio, transmitir resposta, lidar com interrupções e manter a experiência em tempo real.

2. Camada de agente
Responsável por interpretar intenção, manter contexto da conversa e decidir próximos passos.

3. Camada de ferramentas
Responsável por consultar sistemas, abrir chamados, buscar políticas, verificar status ou executar ações permitidas.

4. Camada de governança
Define permissões, confirmações, limites e regras de escalonamento humano.

5. Camada de observabilidade
Registra sessões, intenções, chamadas de ferramenta, latência, falhas, escalonamentos e métricas de qualidade.

Sem essas camadas, o projeto vira apenas uma chamada de modelo com voz.

O que medir em um voice agent

Voice agent precisa de métricas próprias.

Eu mediria:

tempo até primeira resposta;
latência média por turno;
taxa de interrupção do usuário;
taxa de entendimento correto da intenção;
quantas vezes o agente pediu repetição;
taxa de conclusão sem humano;
taxa de escalonamento;
taxa de erro em tool calling;
tempo médio de atendimento;
satisfação do usuário;
casos em que o agente deveria ter escalado e não escalou.

Essa última métrica é crítica.

Em voz, um agente confiante demais pode parecer bom até causar problema.

Interrupções são parte da conversa

Pessoas interrompem.

Elas mudam de ideia. Corrigem dados. Cortam a resposta. Falam antes do agente terminar. Às vezes dizem: “não, espera”, “na verdade”, “não era isso”, “deixa eu explicar melhor”.

Um voice agent precisa lidar com isso.

Se o sistema ignora interrupção, a experiência fica robótica. Se interrompe errado, fica confuso. Se perde histórico, vira frustração.

Por isso a documentação de Speech Service mencionar guias para lidar com interrupções no histórico de chat é relevante. Esse é um problema real de UX e arquitetura em agentes de voz.

A conversa humana não é linear. Voice agent precisa aceitar isso.

Proatividade com cuidado

A documentação também menciona guias para mensagens proativas em voice agents. Isso é poderoso, mas perigoso.

Proatividade pode melhorar a experiência:

“Percebi que esse problema parece relacionado a acesso. Posso verificar se há instabilidade no serviço?”

Mas também pode irritar ou assustar:

“Detectei que você pode estar com problema financeiro. Deseja regularizar?”

Em voz, proatividade precisa ser muito bem desenhada.

Eu usaria proatividade apenas quando:

o contexto é claro;
o benefício é evidente;
a ação é de baixo risco;
o usuário pode recusar;
a frase é transparente;
não parece invasiva.

Proatividade ruim vira sensação de vigilância.

Voice agent e varejo

Em varejo, voice agents podem ter um papel interessante.

Imagine um vendedor em loja física, com pouco tempo, perguntando por voz:

“Qual argumento eu uso para vender esse produto para uma mãe no Dia das Mães?”
“Qual é a diferença entre esse modelo e o concorrente?”
“Tem alguma promoção ativa para esse smartphone?”
“Como explico a garantia para o cliente?”
“Esse acessório é compatível?”

Esse tipo de agente pode ajudar muito porque o vendedor está em movimento. Ele não quer abrir sistema, procurar documento e ler manual. Ele quer uma resposta rápida, contextual e segura.

Mas aqui também entra governança.

O agente pode sugerir argumento.
Pode consultar campanha.
Pode explicar diferencial.
Pode orientar objeção.
Mas não pode inventar promoção.
Não pode prometer desconto inexistente.
Não pode alterar condição comercial.
Não pode responder política sem fonte oficial.

Em varejo, voz pode ser interface de produtividade no ponto de venda. Mas precisa estar conectada a dados confiáveis.

Voice agent para liderança e operação

Outro caso é operação.

Um gestor pode perguntar:

“Resumo das principais ocorrências de hoje.”
“Quais lojas tiveram problema de estoque?”
“Algum chamado crítico aberto?”
“Qual campanha está performando melhor?”
“Quais pontos precisam de atenção amanhã?”

Um agente de voz pode transformar dados operacionais em briefing rápido. Mas esse cenário exige mais cuidado com permissão e qualidade da fonte.

Se o agente fala algo errado para a liderança, pode induzir decisão ruim.

Então eu separaria respostas em três categorias:

Informação factual com fonte: pode responder.
Análise interpretativa: pode responder com ressalva.
Recomendação de decisão: deve indicar incerteza e, dependendo do risco, pedir validação humana.

Segurança: voz também vaza dado

Muita gente pensa em segurança de IA apenas em texto e documentos. Voz também vaza dado.

Uma conversa pode conter nome, CPF, telefone, dados de cliente, problema interno, informação comercial, credenciais faladas por engano, contexto sensível e até dados de saúde ou financeiros.

Por isso, antes de colocar voice agent em produção, eu definiria:

o que pode ser gravado;
por quanto tempo;
quem pode acessar transcrições;
como mascarar dados sensíveis;
quando descartar áudio;
como tratar consentimento;
como auditar chamadas;
quais temas exigem humano;
quais informações o agente nunca deve pedir.

Um voice agent corporativo precisa ser desenhado com privacidade desde o início.

O erro de humanizar demais

Outro erro comum é tentar fazer o agente parecer humano demais.

Isso pode gerar expectativa errada.

Eu prefiro uma experiência clara: o usuário deve saber que está falando com uma IA. O agente pode ser natural, educado e eficiente, mas não precisa fingir ser uma pessoa.

Transparência cria confiança.

A voz pode ser fluida. A experiência pode ser boa. Mas o sistema precisa deixar claro seus limites.

Quando não sabe, diz que não sabe.
Quando precisa consultar, avisa.
Quando precisa humano, escala.
Quando não pode fazer algo, explica.

Isso é melhor do que criar uma IA simpática que tenta resolver tudo e erra com confiança.

Como começar um piloto

Eu começaria com um piloto controlado.

Escolheria um caso de baixo risco.
Definiria escopo fechado.
Criaria um conjunto de intenções.
Conectaria poucas ferramentas.
Colocaria confirmação antes de qualquer ação.
Mediria latência e conclusão.
Coletaria feedback dos usuários.
Revisaria transcrições com cuidado.
Ajustaria instruções.
Só depois ampliaria.

Um piloto ruim seria tentar substituir uma central inteira.
Um piloto bom seria resolver uma jornada específica.

Por exemplo: abertura de chamado interno por voz.

O usuário fala o problema.
O agente faz perguntas.
Resume.
Confirma.
Abre ticket.
Informa protocolo.
Escala se for crítico.

Isso já gera valor sem assumir risco absurdo.

Checklist mínimo para produção

Antes de produção, eu exigiria:

escopo definido;
intenções mapeadas;
ferramentas limitadas;
confirmação para ações;
escalonamento humano;
logs e tracing;
métricas de latência;
política de dados de voz;
teste com sotaques e ruído;
teste em português real;
teste de interrupção;
teste de prompt injection;
fallback claro;
mensagem de transparência informando uso de IA.

Sem isso, é melhor ficar no piloto.

Minha leitura sobre fevereiro de 2026

Fevereiro de 2026 foi importante porque reforçou que o Microsoft Foundry não está evoluindo apenas em texto, agentes e modelos de raciocínio. Ele também está avançando para experiências multimodais e voice-first.

A chegada dos modelos GPT-Realtime-1.5 e GPT-Audio-1.5, com foco em instruções, suporte multilíngue, tool calling e baixa latência, mostra que aplicações de voz começam a ficar mais viáveis para cenários corporativos. A integração em preview entre Voice Agent e Foundry Agent Service também aponta para uma direção clara: voz como canal de agentes, não apenas como transcrição.

Para mim, esse é o ponto central: voice agent não é o futuro da URA. É uma nova interface para processos inteligentes.

Mas, se for mal desenhado, vira apenas uma URA com IA.

Conclusão

Voice agents no Microsoft Foundry representam uma evolução importante na forma como pessoas podem interagir com sistemas corporativos.

Mas voz exige outro nível de cuidado.

A experiência precisa ser rápida.
O agente precisa entender interrupções.
As respostas precisam ser curtas.
As ferramentas precisam ser seguras.
As ações precisam de confirmação.
Os dados precisam de proteção.
O humano precisa entrar quando o risco sobe.

A pergunta não é “consigo fazer a IA falar?”. Isso já está ficando cada vez mais fácil.

A pergunta correta é: “consigo criar uma experiência de voz que resolva uma tarefa real, com baixa latência, segurança, governança e boa experiência?”

Essa é a diferença entre uma demo impressionante e uma solução útil.

No fim, voice agent não é sobre colocar voz em um modelo. É sobre redesenhar a interação entre pessoas e sistemas.

E, quando isso é feito com arquitetura, voz deixa de ser canal de atendimento e começa a virar camada de produtividade.

Referências técnicas usadas como base: documentação oficial de novidades do Azure OpenAI em Azure AI Foundry Models para fevereiro de 2026, incluindo GPT-Realtime-1.5 e GPT-Audio-1.5, e release notes do Azure Speech Service com integração em preview entre Voice Agent e Foundry Agent Service.