Commit Graph

30 Commits

Author SHA1 Message Date
zstar d99c9e5c42 fix: 移除文档时删除es中的记录,修复移除文档后知识残留的问题 2025-06-13 00:22:46 +08:00
zstar 0b1126b1c8 feat: 增加支持对csv格式文件的上传和解析 2025-06-12 22:50:19 +08:00
zstar dfb7867561 chores: 调整解析文件结构,增强可读性 2025-06-12 22:17:41 +08:00
zstar 622fc32619 fix: module 'traceback' has no attribute 'logger' 2025-06-11 10:22:30 +08:00
zstar 59d5ca5c95 refactor(management): 后台解析时,添加日志记录
- 在管理端应用中添加日志记录功能,用于记录解析过程中的信息和错误
- 优化代码格式和结构,提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码
2025-06-10 12:29:26 +08:00
zstar 2249ef3083 fix(document_parser): 修复文档中存在无效的Unicode字符导致解析异常的问题
- 在将文档内容编码为 UTF-8 时,添加了错误处理参数 "replace"
- 这样可以避免某些特殊字符导致的编码错误
- 修改了两处相关代码,确保内容正确上传到 MinIO
2025-06-10 11:37:03 +08:00
zstar 70647d36d5 refactor: 上调TopNItem 组件最大值为100 2025-06-07 16:14:33 +08:00
zstar 66fbd297aa refactor(api): 重构聊天模块中图片插入逻辑,使其能够插入到引用块中间,并优化es图片读取逻辑路径
- 移除了多轮对话优化和推理相关代码
- 新增图片 Markdown 插入逻辑,支持从 MinIO 中获取图片
- 优化了引用文献的处理流程
- 简化了错误提示信息
- 添加了时间信息统计
2025-06-07 13:00:07 +08:00
zstar 59b79cc903 fix(knowledgebases): 修复解析表格类型内容块时,内容为空造成的异常问题 2025-06-06 18:27:12 +08:00
zstar 9aefac9045 refactor(server): 适配 Ollama 接口 /api/embeddings url
- 修改文档解析服务中的嵌入式请求,以适配 Ollama 接口
- 根据 is_ollama 标志动态调整请求参数,使用 "prompt" 替代 "input"
- 保持其他功能和接口不变
2025-06-05 15:00:52 +08:00
zstar 3496fff83c fix: 修复Ollama嵌入模型接口和前台不一致的问题 issue#65 2025-06-05 14:35:23 +08:00
zstar 8cfc4bba4c fix:适配新版本task的表结构,解决Unknown column 'priority'in 'field list' 报错信息 2025-06-05 11:34:45 +08:00
zstar 45b7233432 refactor(knowledgebases): 重构excel文件的解析逻辑 2025-06-02 18:10:22 +08:00
zstar dd2b661703 feat(document_parser): 支持解析数学公式类型的数据块
- 在文本和表格类型之外,增加了对数学公式(equation)类型数据块的处理
2025-06-02 13:47:15 +08:00
zstar 04439e6640 fix(knowledgebase): 修复私人知识库访问权限问题
- 修改文档解析逻辑,使用知识库创建者作为 tenant_id
2025-06-02 01:48:11 +08:00
zstar d847d1ddad refactor(tokenizer): 实现解析分词,和原版分词同步
- 新增 RagTokenizer 类,实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作,提高处理效率和准确性
- 移除知识图谱相关无用代码,简化文档结构
- 添加 tokenizer 依赖到 requirements.txt
2025-06-01 20:46:29 +08:00
zstar 8ce493003b
feat(文档解析): 适配硅基流动平台并优化Embedding配置处理 (#97) (#97) 2025-05-16 13:48:16 +08:00
zstar d0d7a24297
feat:知识库精细化管理 (#96)
* feat(知识库管理): 新增知识库创建人选择功能 (#96)

* "feat(知识库管理): 新增知识库权限修改功能并扩展操作列宽度 (#97)"

* feat(文档解析): 添加embedding向量维度校验,确保维度为1024并提示使用bge-m3模型
2025-05-15 16:01:39 +08:00
zstar 3ec47d8955
feat(文件管理): 新增支持HTML文件类型解析并完善许可证说明 (#95) 2025-05-15 00:31:41 +08:00
zstar b79293b9ae
feat(文档解析): 拓展支持文件解析类型:excel、jpg、png、txt、md (#94) 2025-05-14 23:01:09 +08:00
zstar 42ce701834
feat(用户管理): 添加用户列表排序功能并优化文档解析计数逻辑 (#85) 2025-05-14 10:57:12 +08:00
zstar 79360c48bd
feat(文件管理): 添加文件列表排序功能 (#79)
在文件管理模块中,新增了文件列表的排序功能。用户可以根据文件名、大小、类型和创建时间等字段进行升序或降序排序。同时,前端页面也增加了排序相关的UI交互,后端接口支持传递排序字段和排序方式参数。
2025-05-12 00:17:28 +08:00
zstar e6c18119da
fix:修复图像文本块关联异常问题 (#78)
添加processed_text_chunks += 1
2025-05-11 21:28:39 +08:00
zstar e832029258
fix(document_parser): 修复解析块回溯错位问题 (#51) 2025-04-25 15:08:18 +08:00
zstar 51f4381a65
refactor: 优化 Embedding URL 拼接逻辑,以兼容vllm和ollama等不同框架 (#50)
- 在 document_parser.py 和 service.py 中优化 Embedding URL 拼接逻辑,支持不同形式的 base_url
- 在 axios.ts 中将 400 错误消息从 "账号密码不正确" 更新为 "请求错误"
2025-04-24 23:29:47 +08:00
zstar 340cdde69a
fix: 修复回答生成图片时,无法正确显示的问题 (#45)
* docs: 更新 README.md 以简化项目介绍和运行说明

更新项目介绍部分,使其更加简洁明了。同时优化了运行说明,移除冗余步骤,使操作流程更加清晰。

* fix: 修复回答生成图片时,无法正确显示的问题

将S3资源的ARN路径从特定图片键改为支持所有图片资源,以确保所有图片都能被正确访问
2025-04-23 14:55:16 +08:00
zstar 803cc7e656
feat: 添加系统Embedding配置功能并优化文档解析 (#35)
在知识库模块中新增了获取和设置系统Embedding配置的API接口,支持动态配置Embedding模型的基础URL、模型名称和API Key。同时,优化了文档解析逻辑,使用系统配置的Embedding模型生成文本块的向量,并将图片与文本块关联存储。
2025-04-18 22:34:25 +08:00
zstar 61d924a4fa
refactor: 优化代码结构和UI组件,移除前台和后台功能冲突的组件 (#34)
本次提交主要对代码进行了重构,移除了未使用的代码和注释,优化了部分UI组件的布局和样式。具体包括:
1. 移除了多个文件中的未使用代码和注释。
2. 调整了部分UI组件的布局,使其更加简洁和一致。
3. 更新了logo.svg文件,优化了图标的设计。
4. 修复了部分组件中的样式问题,提升了用户体验。
2025-04-18 10:18:07 +08:00
zstar fa17fd40bd
feat(pdf解析块坐标溯源): 对mineru的解析结果,增加pdf解析块坐标溯源功能 (#33)
- 新增 `get_text_from_block` 函数,用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析,提取块信息并匹配到文本块
- 更新 ES 文档结构,增加 `page_num_int` 和 `position_int` 字段,记录块在文档中的位置
2025-04-17 20:32:48 +08:00
zstar 6057163f28
feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)
增加对word和ppt的支持,需要安装LibreOffice。同时,将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块,以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑,确保资源正确释放。
2025-04-17 16:31:20 +08:00