✂️ Blöcke · Absätze · Codeblöcke

Semantischer Chunker — langen Text für LLMs lokal teilen, ohne mitten im Gedanken zu schneiden

Teile ein langes Dokument oder eine Codebasis in LLM-gerechte Blöcke — ohne je mitten im Absatz oder in einer Funktion zu schneiden.

Long text or code to split

So funktioniert es

Füge ein langes Dokument oder eine Codebasis ein und lege eine maximale Blockgröße fest. Der Chunker teilt an Absatzgrenzen und nie innerhalb eines abgegrenzten Codeblocks; auf Satzgrenzen greift er nur zurück, wenn ein Block zu groß ist. Jeder Block ist nummeriert, sodass du sie der Reihe nach ins LLM einfügst.

Warum Text für LLMs aufteilen?

Ein Prompt, der länger ist als das Kontextfenster eines Modells, muss aufgeteilt werden — aber ein naiver Zeichenschnitt landet mitten in einem Satz, einem JSON-Objekt oder einer Funktion, und das Modell verliert den Faden. Semantisches Chunking schneidet nur an Absatzgrenzen und hält Codeblöcke intakt, sodass jeder nummerierte Block in sich geschlossen ist. Füge sie der Reihe nach ein, und das Modell folgt dem Dokument, als wäre es nie geteilt worden.

FAQ

Wird mein Text hochgeladen?
Nein. Das Chunking läuft vollständig im Browser in JavaScript — dein Dokument verlässt das Gerät nie. Die Seite sendet nur einen anonymen Nutzungszähler (Tool-Name und Eingabegröße), nie den Inhalt.
Wie bleiben die Blöcke kohärent?
Es teilt an doppelten Zeilenumbrüchen (Absätzen) und hält abgegrenzte Codeblöcke ganz. Satz- und harte Schnitte dienen nur als letzte Möglichkeit für Blöcke größer als die Blockgröße.
Gibt es ein Größenlimit?
Nur dein Gerätespeicher. Ohne Server kannst du Dokumente von mehreren Megabyte aufteilen; große Eingaben werden ohne Einfrieren der Seite verarbeitet.
Welche Blockgröße sollte ich wählen?
Lege sie unter das Kontextfenster deines Modells, mit Platz für die Antwort — etwa 8.000 bis 12.000 Zeichen pro Block bei einem typischen Chat-Modell.

Related Tools