セマンティック チャンカー — 長文をLLM向けにローカル分割、思考の途中で切らない
長い文書やコードベースを LLM 向けのサイズに分割 — 段落や関数の途中で切ることなく。
Long text or code to split
使い方
長い文書やコードベースを貼り付け、最大チャンクサイズを設定します。チャンカーは段落の区切りで分割し、コードブロック(```)の内部では決して切りません。ブロックが大きすぎる場合のみ文の境界に頼ります。各チャンクには番号が付き、文脈を保ったままLLMへ順番に貼り付けられます。
なぜLLM向けにテキストを分割するのか
モデルのコンテキストウィンドウより長いプロンプトは分割する必要がありますが、単純な文字数での切断は文・JSONオブジェクト・関数の途中に落ち、モデルは文脈を見失います。セマンティック分割は段落の境界でのみ切り、コードブロックを丸ごと保持するため、番号付きの各チャンクは自己完結しています。順番に貼り付ければ、モデルは分割されなかったかのように文書をたどれます。
FAQ
- テキストはアップロードされますか?
- いいえ。分割はJavaScriptで完全にブラウザ内で実行されます — 文書はデバイスから出ません。ページが送るのは匿名の利用カウンター(ツール名と入力サイズ)だけで、内容は送信しません。
- チャンクの一貫性はどう保たれますか?
- 二重改行(段落)で分割し、コードブロックは丸ごと保持します。文単位や強制分割は、チャンクサイズより大きいブロックに対する最終手段としてのみ使われます。
- サイズ制限はありますか?
- デバイスのメモリのみです。サーバーが無いため数MBの文書も分割でき、大きな入力でもページは固まりません。
- チャンクサイズはどれくらいが良いですか?
- モデルのコンテキストウィンドウより小さく、応答用の余裕を残して設定します。一般的なチャットモデルなら1チャンク8,000〜12,000文字程度です。