Question 1

テキストはアップロードされますか？

Accepted Answer

いいえ。分割はJavaScriptで完全にブラウザ内で実行されます — 文書はデバイスから出ません。ページが送るのは匿名の利用カウンター（ツール名と入力サイズ）だけで、内容は送信しません。

Question 2

チャンクの一貫性はどう保たれますか？

Accepted Answer

二重改行（段落）で分割し、コードブロックは丸ごと保持します。文単位や強制分割は、チャンクサイズより大きいブロックに対する最終手段としてのみ使われます。

Question 3

サイズ制限はありますか？

Accepted Answer

デバイスのメモリのみです。サーバーが無いため数MBの文書も分割でき、大きな入力でもページは固まりません。

Question 4

チャンクサイズはどれくらいが良いですか？

Accepted Answer

モデルのコンテキストウィンドウより小さく、応答用の余裕を残して設定します。一般的なチャットモデルなら1チャンク8,000〜12,000文字程度です。

セマンティックチャンカー — 長文をLLM向けにローカル分割、思考の途中で切らない

Long text or code to split