Claude Code facture à la consommation de tokens. Chaque ligne de contexte envoyée au modèle coûte. Par défaut, les réglages sont généreux — pratique pour débuter, coûteux à l'usage intensif. Trois ajustements simples suffisent à diviser ta facture par 5 sans sacrifier la qualité.
Par défaut, Claude Code utilise le modèle le plus puissant (Opus). Pour les tâches simples — génération de tests, refactoring basique, questions de syntaxe — un modèle plus léger fait exactement le même travail pour 5 à 10 fois moins cher.
La stratégie gagnante : Haiku pour les tâches répétitives, Sonnet pour le travail quotidien, Opus seulement quand les autres modèles bloquent.
Le RTK est un mécanisme qui tronque intelligemment le contexte en gardant uniquement les parties pertinentes pour ta requête. Au lieu d'envoyer tout l'historique de la conversation, Claude ne reçoit que ce dont il a besoin.
Sur des sessions longues (1h+), le RTK peut réduire de 60 à 70% le nombre de tokens envoyés. C'est là que se font les vraies économies.
Un CLAUDE.md verbeux avec 500 lignes de contexte est lu intégralement à chaque requête. Un CLAUDE.md compact et ciblé (50-100 lignes essentielles) fait le même travail pour 80% moins de tokens de contexte.
Ces trois réglages ensemble peuvent réduire ta consommation de 80%. Sur un usage intensif de 100€/mois, ça te ramène à 20€ avec exactement les mêmes résultats.