No Cascade, você pode alternar facilmente entre diferentes modelos à sua escolha. Dependendo do modelo selecionado, cada um dos seus prompts de entrada consumirá uma quantidade diferente de créditos de prompt. Abaixo da caixa de entrada de texto, você verá um menu suspenso para seleção de modelo contendo os seguintes modelos:

SWE-1

SWE-1 é nossa família de modelos de IA proprietários de última geração, desenvolvidos especificamente para tarefas de engenharia de software. Com base em nossas avaliações internas, ele apresenta desempenho próximo ao de modelos de ponta dos principais laboratórios.
  • SWE-1: Alto poder de raciocínio, compatível com ferramentas e otimizado para o Cascade. Desempenho no nível do Claude 3.5 por uma fração do custo.
  • SWE-1-mini: Alimenta sugestões passivas no Windsurf Tab, otimizado para baixa latência em tempo real.

Traga sua própria chave (BYOK)

Disponível apenas para usuários individuais, tanto no plano gratuito quanto pago.
Para determinados modelos de IA, permitimos que os usuários usem suas próprias chaves de API. No menu suspenso de modelos, usuários individuais verão os modelos marcados com BYOK. Observe que isso é diferente de preços de API. Para inserir sua chave de API, acesse esta página nas configurações da assinatura e adicione sua chave. Se você não tiver configurado sua chave de API, ocorrerá um erro ao tentar usar um modelo BYOK. Atualmente, oferecemos suporte a BYOK apenas para estes modelos:
  • Claude 4 Sonnet
  • Claude 4 Sonnet (Thinking)
  • Claude 4 Opus
  • Claude 4 Opus (Thinking)

Preços da API

Diferentemente da precificação por taxa fixa, em que um número fixo de créditos é usado para cada prompt do usuário, a precificação da API cobra um número fixo de créditos por token processado (ou seja, proporcional ao consumo de computação). O número de créditos por token processado varia conforme o modelo selecionado. Tanto a precificação da API quanto a de taxa fixa consomem o mesmo pool de créditos. Modelos com precificação da API estão claramente identificados no seletor de modelos. Cobramos o preço de API do modelo mais uma margem de 20%. Cada crédito corresponde a US$ 0,04.
Utilizamos os mesmos tokenizers que os provedores de modelos (o da Anthropic para os modelos Claude, o da OpenAI para os modelos GPT, etc.) para garantir contagem de tokens e precificação precisas e consistentes. Veja a demo do tokenizer da OpenAI
A precificação da API cobra por todos os tokens processados a partir dos seus prompts, do contexto recuperado automaticamente, de chamadas de ferramentas, do histórico de conversas, etc. Como os custos de processamento cobrados pelos provedores de modelos diferem entre tokens de entrada e saída, em cache ou não, a quantidade de créditos consumida para o mesmo total de tokens pode variar conforme a distribuição desses tipos de tokens. Tokens de raciocínio de modelos “thinking” são cobrados como tokens de saída. O Windsurf equilibra o comprimento do contexto com os custos de leituras do cache de prompt, resumindo a conversa quando ela fica muito longa; o resumo resultante é cobrado como tokens de entrada sem cache. O uso fracionário de créditos é arredondado para cima até a centésima de crédito mais próxima. Observe que a precificação da API é separada do BYOK (bring your own key). Com BYOK, todo o uso passa pela sua própria chave de API, portanto o Windsurf não cobra créditos. Aqui está a precificação dos modelos disponíveis via API em vários planos:
ModelPlans with API PricingInput Tokens (Credits / Million Tokens)1Cache Read Tokens (Credits / Million Tokens)2Output Tokens (Credits / Million Tokens)
Claude Sonnet 4- Pro
- Teams
- Enterprise (contracted)
- Enterprise (self-serve)
909450
Claude Sonnet 4 (Thinking)- Pro
- Teams
- Enterprise (contracted)
- Enterprise (self-serve)
909450
1 Para modelos da Anthropic, gravações no cache de prompt custam 25% a mais em comparação à entrada sem cache. A maioria dos tokens de entrada no Windsurf é gravada no cache de prompt para etapas subsequentes. Tokens de saída são gravados no cache de prompt sem custo adicional. Consulte a precificação da API da Anthropic para detalhes.
2 O cache de prompt tem um TTL (time-to-live) limitado determinado pelo provedor do modelo (por exemplo, aproximadamente 5 minutos na Anthropic). Mesmo dentro do TTL, não há garantia de acerto no cache de prompt. Falhas no cache de prompt são cobradas como tokens de entrada.

Exemplo de conversa

Para mostrar como a precificação da API funciona na prática, vamos passar por um exemplo de conversa com o Cascade usando diretamente o Claude Sonnet 4.
FunçãoMensagemTokensObservaçãoCusto por mensagem
UserRefactor @my_function20kEntrada (gravação em cache). Observação: inclui linha do tempo compartilhada completa, contexto do editor e prompt do sistema.2.25 Credits
WindsurfPrimeiro, vou analisar a my_function para elaborar um plano de refatoração.1kTokens de saída.0.45 Credits
tool_callAnalyze my_function23kEntrada (leitura de cache) + entrada (gravação em cache).0.42 Credits
WindsurfAqui está um plano para refatorar a my_function […] você quer que eu continue com a implementação?2kTokens de saída.0.90 Credits
UserSim, continue.46kEntrada (leitura de cache) + entrada (gravação em cache).0.52 Credits
tool_callEdit foo.py50kEntrada (leitura de cache) + tokens de saída.2.22 Credits
tool_callAdd bar.py56kEntrada (leitura de cache) + tokens de saída.3.15 Credits
WindsurfConcluí a refatoração da my_function. Aqui está um resumo das minhas alterações: […]2kTokens de saída.0.90 Credits
Total200k10.81 Credits