Streaming com IA

Streaming permite exibir tokens conforme a resposta é gerada. Esse fluxo melhora a percepção de velocidade em chats, copilotos, assistentes internos e interfaces longas.

Quando usar streaming

Use streaming quando:

a resposta pode ser longa
o usuário está olhando para uma interface interativa
você quer mostrar progresso antes da resposta final
a aplicação precisa reduzir sensação de espera

Para tarefas de backend, relatórios assíncronos ou automações sem interface, uma chamada sem streaming costuma ser mais simples.

Exemplo em Node.js

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: 'https://ai.zenifra.com/v1',
  apiKey: process.env.ZENIFRA_AI_API_KEY,
});

const stream = await client.chat.completions.create({
  model: 'zenifra/qwen3.6-35b-a3b',
  stream: true,
  messages: [
    {
      role: 'user',
      content: 'Explique o que é deploy contínuo em cinco frases.',
    },
  ],
});

for await (const chunk of stream) {
  const token = chunk.choices[0]?.delta?.content;
  if (token) process.stdout.write(token);
}

Exemplo em curl

curl https://ai.zenifra.com/v1/chat/completions \
  -H "Authorization: Bearer $ZENIFRA_AI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "zenifra/qwen3.6-35b-a3b",
    "stream": true,
    "messages": [
      { "role": "user", "content": "Crie uma checklist curta de deploy." }
    ]
  }'

Cuidados em produção

trate queda de conexão no cliente
mostre erro claro se a chave estiver inválida ou sem budget
não registre prompts sensíveis sem necessidade
limite concorrência para evitar picos de custo
acompanhe tokens, custo e modelos usados no console

Próximos passos

FAQ

Streaming muda a cobrança?

O consumo continua sendo baseado em tokens. A diferença é a forma como a resposta chega ao cliente.

Posso usar streaming em backend?

Sim, mas ele é mais útil quando existe uma interface exibindo a resposta em tempo real.

O que fazer em erro no meio do stream?

Finalize a resposta parcial, mostre uma mensagem clara e permita nova tentativa com backoff.

Nessa Página