Comment fonctionne le générateur de sous-titres ?

Il utilise la reconnaissance vocale basée sur le navigateur (Web Speech API) pour transcrire l'audio en sous-titres horodatés.

Quels formats de sous-titres puis-je exporter ?

Formats SRT et VTT, compatibles avec YouTube, TikTok et la plupart des éditeurs vidéo.

Prend-il en charge plusieurs langues ?

Oui, prend en charge toutes les langues disponibles dans le moteur de reconnaissance vocale de votre navigateur.

Mon audio est-il envoyé à un serveur ?

La reconnaissance vocale utilise le moteur intégré de votre navigateur. Aucun audio n'est envoyé à nos serveurs.

Ce générateur de sous-titres est-il gratuit ?

Oui, entièrement gratuit sans limites sur la durée des vidéos.

🎙️ Whisper AI · No Upload · No API Key

Générateur de Sous-titres IA

Transcrivez n'importe quel audio ou vidéo en SRT, VTT ou texte brut avec OpenAI Whisper — entièrement dans votre navigateur. Sans upload, sans clé API, sans abonnement. Fonctionne hors ligne après le premier téléchargement du modèle.

🎙️

Déposez un fichier audio ou vidéo ici, ou cliquez pour parcourir

MP3, MP4, WAV, M4A, OGG, WebM, MOV, FLAC…

Pour de meilleurs résultats : audio clair, bruit de fond minimal, moins de 30 minutes

Résultat

Modèle

Première utilisation : Le modèle se télécharge depuis HuggingFace CDN (75–466 Mo selon la sélection). Il est mis en cache dans votre navigateur — les utilisations suivantes sont instantanées, même hors ligne.

Langue

Sélectionnez la langue parlée — améliore significativement la précision et la vitesse.

💡 Conseils pour de meilleurs résultats

• Utilisez le modèle Base comme point de départ.

• Définissez la langue manuellement si vous la connaissez — ~30% plus rapide.

• L'audio clair se transcrit mieux que les enregistrements bruyants.

• Les fichiers longs (>30 min) peuvent prendre plusieurs minutes sur les appareils lents.

• SRT fonctionne dans tous les éditeurs vidéo et plateformes sociales. VTT est pour les lecteurs web.

Whisper AI transcription — free, local, private

OpenAI Whisper is one of the best automatic speech recognition models ever released. It understands 99 languages, handles accents gracefully, and produces subtitle-quality output including punctuation and casing. Services that offer Whisper as an API charge $0.006 per minute — for a 60-minute interview, that's $0.36, and it goes to their server. This tool runs Whisper directly in your browser via WebAssembly, so it costs you nothing and your audio never leaves your device.

How it works

Drop your file. Any format your browser can decode: MP3, MP4, WAV, M4A, OGG, WebM, FLAC, MOV.
Load a model. We download the Whisper model weights from HuggingFace CDN (75–466 MB). This is a one-time download — the browser caches it, so subsequent runs work instantly, even offline.
Transcribe. The model runs in a Web Worker thread so the page stays responsive. A typical 5-minute audio clip takes 1–3 minutes to transcribe, depending on your CPU.
Export. Download as SRT (for video editors and social platforms), VTT (for web players), plain text, or JSON with raw timestamps.

Which model to choose?

Tiny (75 MB) — quick drafts, strong English. Useful for getting timestamps even if accuracy isn't perfect.
Tiny EN-only (75 MB) — same size as Tiny but faster on English because it skips the language-detection step.
Base (145 MB) — the sweet spot for most use cases. Better multilingual accuracy than Tiny at acceptable speed.
Small (466 MB) — near-professional quality. Recommended for interviews, podcasts, legal/medical content.

Export formats

SRT — supported by YouTube, Vimeo, CapCut, DaVinci Resolve, Premiere, Final Cut Pro and every social platform that accepts caption files.
VTT (WebVTT) — the native caption format for HTML5 <video> elements and web streaming players.
Texte brut — the transcript without any timing markers. Useful for documentation, meeting notes or full-text search.
JSON — raw transcript data with start and end timestamps per segment. Ideal if you want to process the transcript programmatically.

Privacy

Your audio file is decoded and processed in your browser tab using WebAssembly. Nothing is uploaded. We don't store audio, we don't store transcripts, we don't log file names. The only network requests this page makes are the one-time model downloads from HuggingFace. After that, the model runs completely offline.

Common use cases

Subtitle a podcast episode or YouTube video without paying for Rev or Otter.ai.
Transcribe an interview for a journalism piece or research paper.
Generate captions for accessibility compliance.
Create timed subtitles for a Shorts/Reel from a longer video.
Transcribe meeting recordings for written notes.
Create an SRT file to upload to TikTok, YouTube or Instagram as native captions.

Limitations

First load is slow — 75–466 MB model download. Fine on broadband, slow on mobile data.
CPU-bound — transcription happens on your CPU. A modern laptop transcribes ~10× real time with the Tiny model. Older hardware will be slower.
Background noise — like all Whisper deployments, quality degrades significantly with heavy background noise or multiple speakers talking over each other.
Long files — files over 30 minutes should be split first. Very long files may exhaust browser memory.

Questions Fréquentes

Comment fonctionne le générateur de sous-titres ?: Il utilise la reconnaissance vocale basée sur le navigateur (Web Speech API) pour transcrire l'audio en sous-titres horodatés.
Quels formats de sous-titres puis-je exporter ?: Formats SRT et VTT, compatibles avec YouTube, TikTok et la plupart des éditeurs vidéo.
Prend-il en charge plusieurs langues ?: Oui, prend en charge toutes les langues disponibles dans le moteur de reconnaissance vocale de votre navigateur.
Mon audio est-il envoyé à un serveur ?: La reconnaissance vocale utilise le moteur intégré de votre navigateur. Aucun audio n'est envoyé à nos serveurs.
Ce générateur de sous-titres est-il gratuit ?: Oui, entièrement gratuit sans limites sur la durée des vidéos.