🎙️ Whisper AI · No Upload · No API Key

KI-Untertitel-Generator

Transkribieren Sie jedes Audio oder Video zu SRT, VTT oder Nur-Text mit OpenAI Whisper — vollständig in Ihrem Browser. Kein Upload, kein API-Schlüssel, kein Abo. Funktioniert offline nach dem ersten Modell-Download.

🎙️

Audio- oder Videodatei hierher ziehen oder klicken

MP3, MP4, WAV, M4A, OGG, WebM, MOV, FLAC…

Für beste Ergebnisse: klares Audio, minimales Hintergrundrauschen, unter 30 Minuten

Ausgabe

Whisper AI transcription — free, local, private

OpenAI Whisper is one of the best automatic speech recognition models ever released. It understands 99 languages, handles accents gracefully, and produces subtitle-quality output including punctuation and casing. Services that offer Whisper as an API charge $0.006 per minute — for a 60-minute interview, that's $0.36, and it goes to their server. This tool runs Whisper directly in your browser via WebAssembly, so it costs you nothing and your audio never leaves your device.

How it works

  1. Drop your file. Any format your browser can decode: MP3, MP4, WAV, M4A, OGG, WebM, FLAC, MOV.
  2. Load a model. We download the Whisper model weights from HuggingFace CDN (75–466 MB). This is a one-time download — the browser caches it, so subsequent runs work instantly, even offline.
  3. Transcribe. The model runs in a Web Worker thread so the page stays responsive. A typical 5-minute audio clip takes 1–3 minutes to transcribe, depending on your CPU.
  4. Export. Download as SRT (for video editors and social platforms), VTT (for web players), plain text, or JSON with raw timestamps.

Which model to choose?

Export formats

Privacy

Your audio file is decoded and processed in your browser tab using WebAssembly. Nothing is uploaded. We don't store audio, we don't store transcripts, we don't log file names. The only network requests this page makes are the one-time model downloads from HuggingFace. After that, the model runs completely offline.

Common use cases

Limitations

Häufig gestellte Fragen

Wie funktioniert der Untertitel-Generator?
Er verwendet browserbasierte Spracherkennung (Web Speech API), um Audio in zeitgestempelte Untertitel zu transkribieren.
Welche Untertitelformate kann ich exportieren?
SRT- und VTT-Formate, kompatibel mit YouTube, TikTok und den meisten Video-Editoren.
Unterstützt es mehrere Sprachen?
Ja, unterstützt alle Sprachen, die in der Spracherkennungs-Engine Ihres Browsers verfügbar sind.
Wird mein Audio an einen Server gesendet?
Die Spracherkennung verwendet die integrierte Engine Ihres Browsers. Es wird kein Audio an unsere Server gesendet.
Ist dieser Untertitel-Generator kostenlos?
Ja, völlig kostenlos ohne Beschränkungen der Videolänge.

Verwandte Tools