OpenAI lança três novos modelos de voz em tempo real.
Arthur Kay 11 de maio de 2026 Atualizado em 11 de maio de 2026
IA , ChatGPT
A OpenAI adicionou três novos modelos de áudio em tempo real à sua API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper . Esses modelos já estão acessíveis na API Realtime e no Playground, permitindo que desenvolvedores os incorporem em aplicativos existentes por meio do Codex .
As novas ferramentas expandem as funcionalidades de voz, passando de interações básicas baseadas em turnos para incluir raciocínio em tempo real, tradução multilíngue e transcrição de transmissões ao vivo.
Novos modelos de áudio em tempo real da OpenAI: GPT-Realtime-2, Translate e Whisper
O GPT-Realtime-2 é o primeiro modelo de voz em tempo real da OpenAI com capacidades de raciocínio comparáveis ao GPT-5. Ele foi projetado para lidar com solicitações complexas, acionar ferramentas e se recuperar de interrupções durante conversas em andamento. As principais atualizações em relação ao GPT-Realtime-1.5 incluem um esforço de raciocínio ajustável com configurações para mínimo, baixo, médio, alto e muito alto, sendo o nível baixo o padrão.
Sua janela de contexto foi expandida de 32.000 para 128.000 tokens , suportando fluxos de trabalho mais longos. O modelo pode chamar várias ferramentas em paralelo, fornecendo atualizações de status audíveis, como "verificando sua agenda" ou "pesquisando isso agora". Ele também inclui preâmbulos que permitem dizer frases curtas como "deixe-me verificar isso" antes de concluir uma solicitação.
Foram feitas melhorias na compreensão do vocabulário específico da área, incluindo nomes próprios e terminologia da saúde. Além disso, o modelo oferece maior controle sobre o tom e a forma de apresentação.
O GPT-Realtime-Translate oferece tradução simultânea de mais de 70 idiomas de entrada para 13 idiomas de saída, acompanhando o ritmo da fala do falante. Ele foi projetado para uso em suporte ao cliente internacional, eventos ao vivo, plataformas educacionais e ferramentas para criadores que atendem a públicos globais. A Deutsche Telekom está testando o modelo para suporte ao cliente multilíngue, enquanto o Vimeo está experimentando a tradução em tempo real de vídeos educativos sobre produtos, à medida que são reproduzidos.
O GPT-Realtime-Whisper é um modelo de transcrição de fala em tempo real projetado para transcrição de baixa latência. Ele transcreve o áudio à medida que é falado, tornando-o adequado para aplicações como legendagem ao vivo, anotações de reuniões que são atualizadas durante as conversas, assistentes de voz que exigem compreensão contínua e fluxos de trabalho pós-chamada em setores como suporte ao cliente, saúde e vendas.
Preços, segurança e conformidade para a API de áudio em tempo real da OpenAI
Os detalhes de preços incluem diversas opções:
O GPT-Realtime-2 tem um custo de US$ 32 por milhão de tokens de entrada de áudio, US$ 0,40 por milhão de tokens de entrada em cache e US$ 64 por milhão de tokens de saída de áudio.
O serviço GPT-Realtime-Translate cobra US$ 0,034 por minuto.
O serviço GPT-Realtime-Whisper custa US$ 0,017 por minuto.
A API em Tempo Real conta com classificadores ativos que podem interromper conversas que violem as políticas de conteúdo da OpenAI. Os desenvolvedores podem aprimorar a segurança adicionando proteções extras usando o SDK de Agentes. A API também oferece suporte à Residência de Dados da UE para aplicativos baseados na UE e está em conformidade com os padrões de privacidade corporativa da OpenAI.
De acordo com as políticas de uso da OpenAI, os desenvolvedores são obrigados a informar os usuários quando eles estiverem interagindo com IA, a menos que o contexto indique claramente o contrário.
Comentários