Dans Cascade, vous pouvez facilement passer d’un modèle d’IA à un autre. Selon le modèle d’IA sélectionné, chacun de vos prompts consommera un nombre différent de crédits de prompt. Sous le champ de saisie, vous verrez un menu déroulant de sélection du modèle contenant les modèles suivants :

SWE-1

SWE-1 est notre famille de modèles d’IA internes de dernière génération, conçus spécifiquement pour les tâches d’ingénierie logicielle. D’après nos évaluations internes, ses performances se rapprochent de celles des modèles d’avant-garde issus des grands laboratoires.
  • SWE-1 : Raisonnement avancé, prise en charge des outils et optimisation pour Cascade. Performances au niveau de Claude 3.5 pour une fraction du coût.
  • SWE-1-mini : Alimente les suggestions passives dans Windsurf Tab, optimisé pour une latence quasi instantanée.

Apportez votre propre clé (BYOK)

Disponible uniquement pour les utilisateurs individuels, gratuits et payants.
Pour certains modèles d’IA, nous autorisons l’utilisation de vos propres clés API. Dans le menu déroulant des modèles, les utilisateurs individuels verront des modèles marqués comme BYOK. Notez que cela est différent de la tarification de l’API. Pour saisir votre clé API, rendez-vous sur cette page dans les paramètres d’abonnement et ajoutez votre clé. Si vous n’avez pas configuré de clé API, une erreur s’affichera si vous tentez d’utiliser un modèle BYOK. Actuellement, nous ne prenons en charge BYOK que pour les modèles suivants :
  • Claude 4 Sonnet
  • Claude 4 Sonnet (Thinking)
  • Claude 4 Opus
  • Claude 4 Opus (Thinking)

Tarification de l’API

Contrairement à une tarification forfaitaire, où un nombre fixe de crédits est utilisé pour chaque requête utilisateur, la tarification de l’API facture un nombre fixe de crédits par jeton traité (c.-à-d. proportionnel au calcul). Le nombre de crédits par jeton traité varie en fonction du modèle d’IA sélectionné. La tarification de l’API et la tarification forfaitaire consomment le même pool de crédits. Les modèles avec tarification API sont clairement indiqués dans le sélecteur de modèles. Nous facturons le prix API du modèle, plus une marge de 20 %. Chaque crédit correspond à 0,04 $.
Nous utilisons les mêmes tokenizeurs que les fournisseurs de modèles (celui d’Anthropic pour les modèles Claude, celui d’OpenAI pour les modèles GPT, etc.) afin de garantir un comptage et une tarification des jetons précis et cohérents. Voir la démo du tokenizer d’OpenAI
La tarification de l’API facture tous les jetons traités à partir de vos requêtes, du contexte récupéré automatiquement, des appels d’outils, de l’historique de conversation, etc. Étant donné que les coûts de traitement des jetons chez les fournisseurs de modèles diffèrent entre jetons d’entrée et de sortie, mis en cache ou non, le nombre de crédits consommés pour un même volume total de jetons peut varier selon la répartition de ces types de jetons. Les jetons de raisonnement des modèles « thinking » sont facturés comme des jetons de sortie. Windsurf équilibre la longueur du contexte avec les coûts des lectures du cache de prompt en résumant la conversation lorsqu’elle devient trop longue ; le résumé qui en résulte est facturé comme des jetons d’entrée non mis en cache. L’utilisation fractionnaire de crédits est arrondie au centième de crédit supérieur. Notez que la tarification de l’API est distincte du BYOK (bring-your-own-key). Avec BYOK, toute l’utilisation passe par votre propre clé API ; Windsurf ne facture donc aucun crédit. Voici la tarification des modèles disponibles via la tarification API dans différentes offres :
ModèleOffres avec tarification APIJetons d’entrée (Crédits / million de jetons)1Lecture du cache (Crédits / million de jetons)2Jetons de sortie (Crédits / million de jetons)
Claude Sonnet 4- Pro
- Teams
- Enterprise (avec contrat)
- Enterprise (en libre-service)
909450
Claude Sonnet 4 (Thinking)- Pro
- Teams
- Enterprise (avec contrat)
- Enterprise (en libre-service)
909450
1 Pour les modèles Anthropic, l’écriture dans le cache de prompt coûte 25 % de plus que l’entrée non mise en cache. La plupart des jetons d’entrée dans Windsurf sont écrits dans le cache de prompt pour les étapes suivantes. Les jetons de sortie sont écrits dans le cache de prompt sans coût supplémentaire. Voir la tarification de l’API d’Anthropic pour plus de détails.
2 Le cache de prompt a une durée de vie (TTL) limitée, déterminée par le fournisseur du modèle (p. ex. environ 5 minutes chez Anthropic). Même pendant le TTL, les accès au cache de prompt ne sont pas garantis. Les ratés du cache de prompt sont facturés comme des jetons d’entrée.

Exemple de conversation

Pour illustrer concrètement la tarification de l’API, parcourons une conversation d’exemple avec Cascade en utilisant directement Claude Sonnet 4.
RôleMessageJetonsRemarqueCoût par message
UtilisateurRefactor @my_function20kEntrée (écriture dans le cache). Remarque : inclut la chronologie partagée complète, le contexte de l’éditeur et l’invite système.2,25 Credits
WindsurfJe vais d’abord analyser my_function pour élaborer un plan de refactorisation.1kJetons de sortie.0,45 Credits
tool_callAnalyze my_function23kEntrée (lecture depuis le cache) + Entrée (écriture dans le cache).0,42 Credits
WindsurfVoici un plan pour refactoriser my_function […] souhaitez-vous que je passe à la mise en œuvre ?2kJetons de sortie.0,90 Credits
UtilisateurOui, continue.46kEntrée (lecture depuis le cache) + Entrée (écriture dans le cache).0,52 Credits
tool_callEdit foo.py50kEntrée (lecture depuis le cache) + Jetons de sortie.2,22 Credits
tool_callAdd bar.py56kEntrée (lecture depuis le cache) + Jetons de sortie.3,15 Credits
WindsurfJ’ai terminé de refactoriser my_function. Voici un récapitulatif de mes modifications : […]2kJetons de sortie.0,90 Credits
Total200k10,81 Credits