◈ Article

PDF → Markdown : économisez 3x de tokens

Claude·Optimisation·Niveau débutant

Envoyer un PDF directement à Claude est intuitif mais inefficace. Claude doit interpréter la mise en page, les colonnes, les en-têtes, les pieds de page — du bruit qui consomme des tokens sans apporter de valeur. En convertissant d'abord en Markdown, tu envoies uniquement le contenu utile.

Pourquoi les PDF coûtent cher en tokens

Un PDF de 10 pages envoyé directement peut consommer 8 000 à 15 000 tokens selon sa mise en page. Le même contenu en Markdown propre tourne autour de 2 000 à 4 000 tokens. Sur des documents techniques longs, la différence est énorme.

De plus, le Markdown est le format natif de Claude. Il le comprend mieux, extrait l'information plus précisément et génère des réponses plus pertinentes.

Outils pour convertir

  • marker (Python) — le plus précis pour les PDFs complexes avec tableaux
  • pymupdf4llm — rapide, optimisé spécifiquement pour les LLMs
  • pdf2md — simple et efficace pour les PDFs textuels
  • pandoc — couteau suisse, converti depuis/vers beaucoup de formats

Installation et usage rapide

# Installer pymupdf4llm (recommandé pour Claude) pip install pymupdf4llm # Convertir un PDF python -c "import pymupdf4llm; print(pymupdf4llm.to_markdown('document.pdf'))" > document.md # Envoyer le Markdown à Claude claude "Résume ce document" --file document.md
💡 Pour les PDFs avec images

Si ton PDF contient des graphiques ou schémas importants, utilise marker qui préserve les images et les convertit en références Markdown. Les autres outils ignorent les images.

Aller plus loin : automatiser le pipeline

# Script bash pour convertir tous les PDFs d'un dossier for pdf in *.pdf; do python -c "import pymupdf4llm; content = pymupdf4llm.to_markdown('$pdf'); open('${pdf%.pdf}.md', 'w').write(content)" echo "✓ Converti: $pdf" done
⚡ Conseil pro

Ajoute une étape de nettoyage après la conversion : supprime les numéros de page, les en-têtes répétitifs et les références bibliographiques si elles ne t'intéressent pas. Ça réduit encore 20-30% du contenu.

◈ Lire l'article original
← Retour aux ressources