- 新增 `get_text_from_block` 函数,用于从 `preproc_blocks` 中提取文本内容 - 在 `perform_parse` 中增加对 `middle_json_content` 的解析,提取块信息并匹配到文本块 - 更新 ES 文档结构,增加 `page_num_int` 和 `position_int` 字段,记录块在文档中的位置 |
||
---|---|---|
.. | ||
document_parser.py | ||
service.py |
- 新增 `get_text_from_block` 函数,用于从 `preproc_blocks` 中提取文本内容 - 在 `perform_parse` 中增加对 `middle_json_content` 的解析,提取块信息并匹配到文本块 - 更新 ES 文档结构,增加 `page_num_int` 和 `position_int` 字段,记录块在文档中的位置 |
||
---|---|---|
.. | ||
document_parser.py | ||
service.py |