发布 PDF 文档转换工具
通过简单的 AI 工具,将 PDF 转换为在线可编辑的知识库,提高工作效率。
大部分企业中采用 Baklib 的时候,都很头疼数据迁移的事情,历史的文档往往是通过 PDF/Word 等格式存储在本地的, 如何更快的上到 Baklib 知识?为此我们借助 Google AI Studio 开发了一款简单易用的 AI PDF 转换工具。
使用改工具的方法非常简单,只需要三步:
预处理本地文档 ---> 在线 AI 转换为 Excel ---> 在 Baklib知识库中导入 Excel为了让 AI 和数据库更好地理解文档,我们需要先对原始文件进行预处理。
1. 使用 WPS 拆分文档
由于 AI 模型通常对超长文档的处理能力有限,为了保证解析的准确性和安全性,我们需要对文档进行拆分。

提取目录: 通过 WPS打开PDF文档,在页面视图下找到目录页。选择“
提取页面”功能,将目录页单独提取为一个独立的 PDF 子文档。删除目录: 在原文档中删除刚才提取的目录页。
拆分正文: 选择“
拆分文档”功能。💡 建议: 建议按 每 20 页 为一个单位,将大型文档拆分为多个小文档。 避免 AI 超时和出错。
2. 使用 AI 提取内容
接下来,我们需要将 PDF 转换为结构化的 Excel 数据(适配 Baklib 导入模板)。集成了 Gemini 模型的 PDF 提取能力:

配置 API: 打开提取工具,填入你的 Gemini API Key。
解析目录: 首先上传刚才提取的“
目录文件” PDF,程序会识别文档的结构树。解析正文: 依次循环上传拆分好的内容文档。等待前一个解析完成后,再上传下一个,直至所有内容解析完毕。
导出数据: 下载解析完成的 Excel 文件。
检查点: 打开 Excel,确认表格列结构符合 Baklib 知识库的导入要求。
最后就是直接导入 Baklib知识库的操作了。详细教程见: https://help.baklib.cn/c1ed24/settings/0e3c/import-tasks
导入的数据文件支持csv、xls、xlsx,内容格式为html、Markdown格式。
通过提供的导入模版,将数据选择导入位置(默认为空间根目录,也可选择导入到文章下面某个子目录下)。
我还写了一个完整的视频教程,见这里:https://www.baklib.com/blog/pdf-to-ai-kb