2026-01-18
· 3 Visits

发布 PDF 文档转换工具

通过简单的 AI 工具,将 PDF 转换为在线可编辑的知识库,提高工作效率。

大部分企业中采用 Baklib 的时候,都很头疼数据迁移的事情,历史的文档往往是通过 PDF/Word 等格式存储在本地的, 如何更快的上到 Baklib 知识?为此我们借助 Google AI Studio 开发了一款简单易用的 AI PDF 转换工具。

工具地址:https://pdf.baklib.cn/

使用改工具的方法非常简单,只需要三步:

预处理本地文档 ---> 在线 AI 转换为 Excel  ---> 在 Baklib知识库中导入 Excel

为了让 AI 和数据库更好地理解文档,我们需要先对原始文件进行预处理。

1. 使用 WPS 拆分文档

由于 AI 模型通常对超长文档的处理能力有限,为了保证解析的准确性和安全性,我们需要对文档进行拆分。

  • 提取目录: 通过 WPS打开PDF文档,在页面视图下找到目录页。选择“提取页面”功能,将目录页单独提取为一个独立的 PDF 子文档。

  • 删除目录: 在原文档中删除刚才提取的目录页。

  • 拆分正文: 选择“拆分文档”功能。

    💡 建议: 建议按 每 20 页 为一个单位,将大型文档拆分为多个小文档。 避免 AI 超时和出错。

2. 使用 AI 提取内容

接下来,我们需要将 PDF 转换为结构化的 Excel 数据(适配 Baklib 导入模板)。集成了 Gemini 模型的 PDF 提取能力:

打开 pdf.baklib.cn

  1. 配置 API: 打开提取工具,填入你的 Gemini API Key。

  2. 解析目录: 首先上传刚才提取的“目录文件” PDF,程序会识别文档的结构树。

  3. 解析正文: 依次循环上传拆分好的内容文档。等待前一个解析完成后,再上传下一个,直至所有内容解析完毕。

  4. 导出数据: 下载解析完成的 Excel 文件。

    • 检查点: 打开 Excel,确认表格列结构符合 Baklib 知识库的导入要求。

最后就是直接导入 Baklib知识库的操作了。详细教程见: https://help.baklib.cn/c1ed24/settings/0e3c/import-tasks

导入的数据文件支持csv、xls、xlsx,内容格式为html、Markdown格式。

通过提供的导入模版,将数据选择导入位置(默认为空间根目录,也可选择导入到文章下面某个子目录下)。

👋

我还写了一个完整的视频教程,见这里:https://www.baklib.com/blog/pdf-to-ai-kb

提交反馈