Pular para o conteúdo principal

A OpenAI lança três novos modelos de voz em tempo real para a API com raciocínio do tipo GPT-5.

 OpenAI lança três novos modelos de voz em tempo real.

Arthur Kay 11 de maio de 2026 Atualizado em 11 de maio de 2026

IA , ChatGPT

A OpenAI adicionou três novos modelos de áudio em tempo real à sua API: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper . Esses modelos já estão acessíveis na API Realtime e no Playground, permitindo que desenvolvedores os incorporem em aplicativos existentes por meio do Codex .


As novas ferramentas expandem as funcionalidades de voz, passando de interações básicas baseadas em turnos para incluir raciocínio em tempo real, tradução multilíngue e transcrição de transmissões ao vivo.


Novos modelos de áudio em tempo real da OpenAI: GPT-Realtime-2, Translate e Whisper

O GPT-Realtime-2 é o primeiro modelo de voz em tempo real da OpenAI com capacidades de raciocínio comparáveis ​​ao GPT-5. Ele foi projetado para lidar com solicitações complexas, acionar ferramentas e se recuperar de interrupções durante conversas em andamento. As principais atualizações em relação ao GPT-Realtime-1.5 incluem um esforço de raciocínio ajustável com configurações para mínimo, baixo, médio, alto e muito alto, sendo o nível baixo o padrão.


Sua janela de contexto foi expandida de 32.000 para 128.000 tokens , suportando fluxos de trabalho mais longos. O modelo pode chamar várias ferramentas em paralelo, fornecendo atualizações de status audíveis, como "verificando sua agenda" ou "pesquisando isso agora". Ele também inclui preâmbulos que permitem dizer frases curtas como "deixe-me verificar isso" antes de concluir uma solicitação.


Foram feitas melhorias na compreensão do vocabulário específico da área, incluindo nomes próprios e terminologia da saúde. Além disso, o modelo oferece maior controle sobre o tom e a forma de apresentação.


O GPT-Realtime-Translate oferece tradução simultânea de mais de 70 idiomas de entrada para 13 idiomas de saída, acompanhando o ritmo da fala do falante. Ele foi projetado para uso em suporte ao cliente internacional, eventos ao vivo, plataformas educacionais e ferramentas para criadores que atendem a públicos globais. A Deutsche Telekom está testando o modelo para suporte ao cliente multilíngue, enquanto o Vimeo está experimentando a tradução em tempo real de vídeos educativos sobre produtos, à medida que são reproduzidos.


O GPT-Realtime-Whisper é um modelo de transcrição de fala em tempo real projetado para transcrição de baixa latência. Ele transcreve o áudio à medida que é falado, tornando-o adequado para aplicações como legendagem ao vivo, anotações de reuniões que são atualizadas durante as conversas, assistentes de voz que exigem compreensão contínua e fluxos de trabalho pós-chamada em setores como suporte ao cliente, saúde e vendas.


Preços, segurança e conformidade para a API de áudio em tempo real da OpenAI

Os detalhes de preços incluem diversas opções:


O GPT-Realtime-2 tem um custo de US$ 32 por milhão de tokens de entrada de áudio, US$ 0,40 por milhão de tokens de entrada em cache e US$ 64 por milhão de tokens de saída de áudio.


O serviço GPT-Realtime-Translate cobra US$ 0,034 por minuto.


O serviço GPT-Realtime-Whisper custa US$ 0,017 por minuto.


A API em Tempo Real conta com classificadores ativos que podem interromper conversas que violem as políticas de conteúdo da OpenAI. Os desenvolvedores podem aprimorar a segurança adicionando proteções extras usando o SDK de Agentes. A API também oferece suporte à Residência de Dados da UE para aplicativos baseados na UE e está em conformidade com os padrões de privacidade corporativa da OpenAI.


De acordo com as políticas de uso da OpenAI, os desenvolvedores são obrigados a informar os usuários quando eles estiverem interagindo com IA, a menos que o contexto indique claramente o contrário.

Comentários

Postagens mais visitadas deste blog

“internet zumbi”

 A ascensão do slop, diz ele, transformou a rede social em um espaço onde “uma mistura de bots, humanos e contas que já foram humanos, mas não se misturam mais para formar um site desastroso onde há pouca conexão social”. Nick Clegg, presidente de assuntos globais da empresa-mãe do Facebook, Meta, escreveu em fevereiro que a rede social está treinando seus sistemas para identificar conteúdo feito por IA. “Como a diferença entre conteúdo humano e sintético fica turva, as pessoas querem saber onde está o limite”, escreveu ele. O problema começou a preocupar a principal fonte de receita da indústria de mídia social: as agências de publicidade que pagam para colocar anúncios ao lado do conteúdo. Farhad Divecha, diretor-gerente da agência de marketing digital AccuraCast, com sede no Reino Unido, diz que agora está encontrando casos em que os usuários estão sinalizando erroneamente os anúncios como slop feitos de IA quando não estão. “Vimos casos em que as pessoas comentara...

Apple Intelligence

  O iOS 18.2 trouxe  uma série de novos recursos dentro da suíte Apple Intelligence   e isso também está exigindo mais armazenamento livre nos iPhones, iPads e Macs compatíveis. Conforme as novas diretrizes da Apple, agora  o usuário precisa manter ao menos 7 GB de memória livre  no dispositivo caso deseje usar as funcionalidades de Inteligência Artificial. Ou seja, um aumento considerável em relação aos 4 GB de armazenamento  exigidos anteriormente no iOS 18.1 . A Apple diz que essa mudança é necessária porque muitas das funções de IA são processadas localmente pela NPU Apple Silicon, algo que exige mais espaço de memória. Caso o usuário não tenha os 7 GB disponíveis, ele será impedido de usar a IA para gerar emojis (Genmoji) ou conversar com a nova Siri, que tem o ChatGPT integrado.   Recursos mais "simples", como a tradução ou resumo de textos, também deixam de funcionar. Na prática, usuários que procuram comprar os novos aparelhos da linha  iP...

A MENTE ARTÍSTICA

Em seu novo livro, as autoras Susan Magsamen, fundadora e diretora do International Arts + Mind Lab, e Ivy Ross afirmam que fazer e experimentar arte pode nos ajudar a florescer Quando Susan Magsamen tomou a decisão de terminar seu primeiro casamento, ela enfrentou dias emocionais e difíceis trabalhando não apenas em seus próprios sentimentos, mas os de seus filhos pequenos. Foi preciso um pedaço de argila de uma criança para mudar tudo isso. Como ela relata em seu novo livro, Your Brain on Art: How the Arts Transform Us (Random House, 2023), ela "começa a esculpir espontaneamente. O que emergiu foi uma estátua de uma mulher de joelhos, seus braços levantados com as mãos estendendo o céu e sua cabeça inclinada para trás, soluçando em total desespero sem palavras." Logo, ela escreve, ela mesma estava em lágrimas. Podemos reconhecer essa ação como um exemplo de uso de nossa criatividade para expressar e liberar emoções reprimidos. Mas como Magsamen, fundadora e diretora executi...