PDF 文本提取

PDF 文本提取工具是一款取出 PDF 中的本文文本,并转换为可复制或可下载为 .txt 形式的工具。画面左侧按页预览原 PDF,右侧显示提取的文本。

请将 PDF 拖放到这里

或

支持 PDF(最大 100 MB)。加密的 PDF 无法提取文本。

PDF 全部在浏览器内处理,不会发送至服务器。

加密的 PDF 或仅由图像构成的 PDF 无法提取文本。

仅在浏览器中将多个 PDF 合并为 1 个(最多 10 个文件 / 支持拖放重排序)。

仅在浏览器中拆分 PDF(支持均等拆分 / 页码范围指定 / ZIP 下载)。

PDF 文本提取是什么?

PDF 文本提取工具是一款取出 PDF 中的本文文本,并转换为可复制或可下载为 .txt 形式的工具。画面左侧按页预览原 PDF,右侧显示提取的文本。

页码范围可用「1-3, 5, 7-10」之类的逗号分隔方式指定,留空时提取全部页面。启用「插入页分隔符」后,会在提取文本的各页边界插入「--- 页 N ---」之类的分隔符,便于后续加工。

输入的 PDF 全部在用户的浏览器内完成解析,不会上传至外部服务器。即使是公司机密文档或包含个人信息的文件也可放心使用。全程在浏览器中完成。

PDF 会被上传至服务器吗?

不会。文本提取全部在您的浏览器内完成。即使是公司机密文档或包含个人信息的文件也可放心使用。

可以从扫描的 PDF 中取出文本吗?

无法取出。本工具仅取出 PDF 内嵌的文本信息,不具备识别图像化文字的 OCR 功能。如需从扫描 PDF 取出文本,请另行使用 OCR 工具。

页分隔符以何种形式插入?

开启「插入页分隔符」后,会在各页边界插入「--- 页 1 ---」「--- 页 2 ---」之类的行。在传递给 AI 提示或编写按页处理脚本时很方便。

提取后换行或段落混乱了。

PDF 本来就是为了保留「画面版式」的格式,文档结构(段落、标题等)的信息未必完整保留。因此提取结果基本正确,但换行位置、空格、分栏顺序可能与原版式不同。后续做轻量整理后会更易处理。

请告知页码范围指定的写法。

用逗号分隔页码或范围。例如「1-3, 5, 7-10」会仅提取 1~3 页、5 页、7~10 页的本文。留空时以全部页面为对象。