✂️ 分块 · 段落 · 代码块

语义分块器 — 在本地为 LLM 拆分长文本,不在半句话处切断

把长文档或代码库分割为适合 LLM 的分块 —— 绝不在段落或函数中间切断。

Long text or code to split

工作原理

粘贴一份长文档或代码库,并设置最大分块大小。分块器在段落处拆分,绝不在代码块(```)内部切断,只有当某块过大时才退而采用句子边界。每个分块都带编号,便于按顺序粘贴进 LLM 并保留上下文。

为什么要为 LLM 拆分文本

比模型上下文窗口更长的提示词必须拆分 —— 但按字符的简单切割会落在句子、JSON 对象或函数的中间,模型就会失去线索。语义分块只在段落边界处切分,并完整保留代码块,因此每个带编号的分块都是自包含的。按顺序粘贴,模型就能像文档从未被拆分一样跟随上下文。

FAQ

我的文本会被上传吗?
不会。分块完全通过 JavaScript 在浏览器中运行 —— 你的文档永不离开设备。页面只发送匿名使用计数器(工具名称和输入大小),绝不发送内容。
它如何保持分块连贯?
它在双换行(段落)处拆分,并完整保留代码块。只有对大于分块大小的块,才会作为最后手段使用句子或强制切分。
有大小限制吗?
仅受设备内存限制。由于没有服务器,可拆分数 MB 的文档;超大输入处理时页面也不会卡顿。
我应该用多大的分块?
设置为小于模型的上下文窗口,并为回复留出余量 —— 例如普通对话模型每块 8,000 至 12,000 个字符。

Related Tools