GitHub - GDJJJ/PDFtoLateXorDoc: 在科技项目申报书文档处理场景中，大量文档以图像格式的PDF存在，通过OCR识别、文本处理和文档合并等步骤提取科技项目图像文档中的文字信息以及表格、图像、公式等非文本信息，通过调用布局检测、大语言模型实现了图像、多层级标题等结构化信息的还原。

在科技项目申报书文档处理场景中，大量文档以图像格式的PDF存在，通过OCR识别、文本处理和文档合并等步骤提取科技项目图像文档中的文字信息以及表格、图像、公式等非文本信息，通过调用布局检测、大语言模型实现了图像、多层级标题等结构化信息的还原。

#在主文件夹中进入终端python app.py即可运行

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
core		core
templates		templates
.gitignore		.gitignore
README.md		README.md
app.py		app.py
requirements.txt		requirements.txt

Provide feedback