No Cascade, você pode alternar facilmente entre diferentes modelos à sua escolha. Dependendo do modelo selecionado, cada um dos seus prompts de entrada consumirá uma quantidade diferente de créditos de prompt. Abaixo da caixa de entrada de texto, você verá um menu suspenso para seleção de modelo com os seguintes modelos:

SWE-1

SWE-1 é nossa família de modelos de IA proprietários de última geração, criada especificamente para tarefas de engenharia de software. Com base em nossas avaliações internas, ela apresenta desempenho próximo ao de modelos de ponta dos principais laboratórios.
  • SWE-1: Alto poder de raciocínio, com capacidade de usar ferramentas e otimizado para o Cascade. Desempenho no nível do Claude 3.5 a uma fração do custo.
  • SWE-1-mini: Fornece sugestões passivas no Windsurf Tab, otimizado para baixa latência em tempo real.

Traga sua própria chave (BYOK)

Disponível apenas para usuários individuais, gratuitos e pagos.
Para certos modelos, permitimos que os usuários usem suas próprias chaves de API. No menu de seleção de modelos, usuários individuais verão modelos marcados com BYOK. Observe que isso é diferente de API Pricing. Para inserir sua chave de API, acesse esta página nas configurações da assinatura e adicione a sua chave. Se você não tiver configurado sua chave de API, ocorrerá um erro ao tentar usar um modelo BYOK. Atualmente, oferecemos suporte a BYOK apenas para estes modelos:
  • Claude 4 Sonnet
  • Claude 4 Sonnet (Thinking)
  • Claude 4 Opus
  • Claude 4 Opus (Thinking)

Preços da API

Diferente da precificação com taxa fixa, em que um número fixo de créditos é usado para cada prompt do usuário, a precificação da API cobra um número fixo de créditos por token processado (ou seja, proporcional ao compute). O número de créditos por token processado varia conforme o modelo de IA selecionado. Tanto a precificação da API quanto a taxa fixa consomem o mesmo pool de créditos. Modelos com precificação da API estão claramente indicados no seletor de modelos. Cobramos o preço de API do modelo mais uma margem de 20%. Cada crédito corresponde a $0,04.
Utilizamos os mesmos tokenizers dos provedores de modelos (o da Anthropic para modelos Claude, o da OpenAI para modelos GPT, etc.) para garantir contagem e precificação de tokens precisas e consistentes. Veja a demo do tokenizer da OpenAI
A precificação da API cobra por todos os tokens processados a partir dos seus prompts, do contexto recuperado automaticamente, de chamadas de ferramentas, do histórico de conversa, etc. Como os custos de processamento dos provedores de modelos diferem entre tokens de entrada e de saída, em cache ou não, o número de créditos consumidos para o mesmo total de tokens pode variar dependendo da distribuição desses tipos de tokens. Tokens de raciocínio de modelos “thinking” são cobrados como tokens de saída. O Windsurf equilibra o tamanho do contexto com os custos de leituras do cache de prompt resumindo a conversa quando ela fica muito longa; o resumo resultante será cobrado como tokens de entrada sem cache. O uso fracionado de créditos é arredondado para cima ao centésimo de crédito mais próximo. Observe que a precificação da API é separada do BYOK (bring-your-own-key). Com BYOK, todo o uso passa pela sua própria chave de API, portanto o Windsurf não cobra créditos. Aqui estão os preços dos modelos disponíveis via precificação da API em vários planos:
ModeloPlanos com precificação da APITokens de entrada (Créditos / Milhão de Tokens)1Tokens de leitura do cache (Créditos / Milhão de Tokens)2Tokens de saída (Créditos / Milhão de Tokens)
Claude Sonnet 4- Pro
- Teams
- Enterprise (contratado)
- Enterprise (self-serve)
909450
Claude Sonnet 4 (Thinking)- Pro
- Teams
- Enterprise (contratado)
- Enterprise (self-serve)
909450
1 Para modelos da Anthropic, gravações no prompt cache custam 25% a mais em comparação com entradas sem cache. A maioria dos tokens de entrada no Windsurf é gravada no prompt cache para etapas subsequentes. Tokens de saída são gravados no prompt cache sem custo adicional. Consulte a precificação da API da Anthropic para detalhes.
2 O prompt cache tem um TTL (time-to-live) limitado determinado pelo provedor do modelo (por exemplo, aproximadamente 5 minutos na Anthropic). Mesmo dentro do TTL, o acerto no prompt cache não é garantido. Falhas no prompt cache são cobradas como tokens de entrada.

Exemplo de conversa

Para mostrar como a precificação da API funciona na prática, vamos percorrer um exemplo de conversa com o Cascade usando diretamente o Claude Sonnet 4.
RoleMessageTokensNoteCost per message
UserRefactor @my_function20kInput (cache write). Observação: inclui toda a linha do tempo compartilhada, contexto do editor e o system prompt.2.25 Credits
WindsurfPrimeiro, vou analisar a my_function para elaborar um plano de refatoração.1kOutput tokens.0.45 Credits
tool_callAnalyze my_function23kInput (cache read) + Input (cache write).0.42 Credits
WindsurfAqui está um plano para refatorar a my_function […] deseja que eu continue com a implementação?2kOutput tokens.0.90 Credits
UserSim, continue.46kInput (cache read) + Input (cache write).0.52 Credits
tool_callEdit foo.py50kInput (cache read) + Output tokens.2.22 Credits
tool_callAdd bar.py56kInput (cache read) + Output tokens.3.15 Credits
WindsurfTerminei de refatorar a my_function. Aqui está um resumo das minhas alterações: […]2kOutput tokens.0.90 Credits
Total200k10.81 Credits