在科技项目申报书文档处理场景中,大量文档以图像格式的PDF存在,通过OCR识别、文本处理和文档合并等步骤提取科技项目图像文档中的文字信息以及表格、图像、公式等非文本信息,通过调用布局检测、大语言模型实现了图像、多层级标题等结构化信息的还原。
#在主文件夹中进入终端python app.py即可运行
| Name | Name | Last commit date | ||
|---|---|---|---|---|
在科技项目申报书文档处理场景中,大量文档以图像格式的PDF存在,通过OCR识别、文本处理和文档合并等步骤提取科技项目图像文档中的文字信息以及表格、图像、公式等非文本信息,通过调用布局检测、大语言模型实现了图像、多层级标题等结构化信息的还原。
#在主文件夹中进入终端python app.py即可运行