Skip to content

GDJJJ/PDFtoLateXorDoc

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

在科技项目申报书文档处理场景中,大量文档以图像格式的PDF存在,通过OCR识别、文本处理和文档合并等步骤提取科技项目图像文档中的文字信息以及表格、图像、公式等非文本信息,通过调用布局检测、大语言模型实现了图像、多层级标题等结构化信息的还原。

#在主文件夹中进入终端python app.py即可运行

About

在科技项目申报书文档处理场景中,大量文档以图像格式的PDF存在,通过OCR识别、文本处理和文档合并等步骤提取科技项目图像文档中的文字信息以及表格、图像、公式等非文本信息,通过调用布局检测、大语言模型实现了图像、多层级标题等结构化信息的还原。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors