RAGflow/management/server/services/knowledgebases/document_parser.py

#  Copyright 2025 zstar1003. All Rights Reserved.
#  Project source code: https://github.com/zstar1003/ragflow-plus

import json
import os
import re
import shutil
import tempfile
import time
from datetime import datetime
from urllib.parse import urlparse

import requests
from database import MINIO_CONFIG, get_db_connection, get_es_client, get_minio_client
from magic_pdf.config.enums import SupportedPdfParseMethod
from magic_pdf.data.data_reader_writer import FileBasedDataReader, FileBasedDataWriter
from magic_pdf.data.dataset import PymuDocDataset
from magic_pdf.data.read_api import read_local_images, read_local_office
from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze

from . import logger
from .excel_parser import parse_excel_file
from .rag_tokenizer import RagTokenizer
from .utils import _create_task_record, _update_document_progress, _update_kb_chunk_count, generate_uuid, get_bbox_from_block

tknzr = RagTokenizer()


def tokenize_text(text):
    """使用分词器对文本进行分词"""
    return tknzr.tokenize(text)


def perform_parse(doc_id, doc_info, file_info, embedding_config, kb_info):
    """
    执行文档解析的核心逻辑

    Args:
        doc_id (str): 文档ID.
        doc_info (dict): 包含文档信息的字典 (name, location, type, kb_id, parser_config, created_by).
        file_info (dict): 包含文件信息的字典 (parent_id/bucket_name).
        kb_info (dict): 包含知识库信息的字典 (created_by).

    Returns:
        dict: 包含解析结果的字典 (success, chunk_count).
    """
    temp_pdf_path = None
    temp_image_dir = None
    start_time = time.time()
    middle_json_content = None  # 初始化 middle_json_content
    image_info_list = []  # 图片信息列表

    # 默认值处理
    embedding_model_name = embedding_config.get("llm_name") if embedding_config and embedding_config.get("llm_name") else "bge-m3"  # 默认模型
    # 对模型名称进行处理
    if embedding_model_name and "___" in embedding_model_name:
        embedding_model_name = embedding_model_name.split("___")[0]

    # 替换特定模型名称(对硅基流动平台进行特异性处理)
    if embedding_model_name == "netease-youdao/bce-embedding-base_v1":
        embedding_model_name = "BAAI/bge-m3"

    embedding_api_base = embedding_config.get("api_base") if embedding_config and embedding_config.get("api_base") else "http://localhost:11434"  # 默认基础 URL

    # 如果 API 基础地址为空字符串，设置为硅基流动的 API 地址
    if embedding_api_base == "":
        embedding_api_base = "https://api.siliconflow.cn/v1/embeddings"
        logger.info(f"[Parser-INFO] API 基础地址为空，已设置为硅基流动的 API 地址: {embedding_api_base}")

    embedding_api_key = embedding_config.get("api_key") if embedding_config else None  # 可能为 None 或空字符串

    # 构建完整的 Embedding API URL
    embedding_url = None  # 默认为 None
    if embedding_api_base:
        # 确保 embedding_api_base 包含协议头 (http:// 或 https://)
        if not embedding_api_base.startswith(("http://", "https://")):
            embedding_api_base = "http://" + embedding_api_base

        # 移除末尾斜杠以方便判断
        normalized_base_url = embedding_api_base.rstrip("/")

        # 如果请求url端口号为11434，则认为是ollama模型，采用ollama特定的api
        is_ollama = "11434" in normalized_base_url
        if is_ollama:
            # Ollama 的特殊接口路径
            embedding_url = normalized_base_url + "/api/embeddings"
        elif normalized_base_url.endswith("/v1"):
            embedding_url = normalized_base_url + "/embeddings"
        elif normalized_base_url.endswith("/embeddings"):
            embedding_url = normalized_base_url
        else:
            embedding_url = normalized_base_url + "/v1/embeddings"

    logger.info(f"[Parser-INFO] 使用 Embedding 配置: URL='{embedding_url}', Model='{embedding_model_name}', Key={embedding_api_key}")

    try:
        kb_id = doc_info["kb_id"]
        file_location = doc_info["location"]
        # 从文件路径中提取原始后缀名
        _, file_extension = os.path.splitext(file_location)
        file_type = doc_info["type"].lower()
        bucket_name = file_info["parent_id"]  # 文件存储的桶是 parent_id
        tenant_id = kb_info["created_by"]  # 知识库创建者作为 tenant_id

        # 进度更新回调 (直接调用内部更新函数)
        def update_progress(prog=None, msg=None):
            _update_document_progress(doc_id, progress=prog, message=msg)
            logger.info(f"[Parser-PROGRESS] Doc: {doc_id}, Progress: {prog}, Message: {msg}")

        # 1. 从 MinIO 获取文件内容
        minio_client = get_minio_client()
        if not minio_client.bucket_exists(bucket_name):
            raise Exception(f"存储桶不存在: {bucket_name}")

        update_progress(0.1, f"正在从存储中获取文件: {file_location}")
        response = minio_client.get_object(bucket_name, file_location)
        file_content = response.read()
        response.close()
        update_progress(0.2, "文件获取成功，准备解析")

        # 2. 根据文件类型选择解析器
        content_list = []
        if file_type.endswith("pdf"):
            update_progress(0.3, "使用MinerU解析器")

            # 创建临时文件保存PDF内容
            temp_dir = tempfile.gettempdir()
            temp_pdf_path = os.path.join(temp_dir, f"{doc_id}.pdf")
            with open(temp_pdf_path, "wb") as f:
                f.write(file_content)

            # 使用MinerU处理
            reader = FileBasedDataReader("")
            pdf_bytes = reader.read(temp_pdf_path)
            ds = PymuDocDataset(pdf_bytes)

            update_progress(0.3, "分析PDF类型")
            is_ocr = ds.classify() == SupportedPdfParseMethod.OCR
            mode_msg = "OCR模式" if is_ocr else "文本模式"
            update_progress(0.4, f"使用{mode_msg}处理PDF，处理中，具体进度可查看容器日志")

            infer_result = ds.apply(doc_analyze, ocr=is_ocr)

            # 设置临时输出目录
            temp_image_dir = os.path.join(temp_dir, f"images_{doc_id}")
            os.makedirs(temp_image_dir, exist_ok=True)
            image_writer = FileBasedDataWriter(temp_image_dir)

            update_progress(0.6, f"处理{mode_msg}结果")
            pipe_result = infer_result.pipe_ocr_mode(image_writer) if is_ocr else infer_result.pipe_txt_mode(image_writer)

            update_progress(0.8, "提取内容")
            content_list = pipe_result.get_content_list(os.path.basename(temp_image_dir))
            # 获取内容列表（JSON格式）
            middle_content = pipe_result.get_middle_json()
            middle_json_content = json.loads(middle_content)

        elif file_type.endswith("word") or file_type.endswith("ppt") or file_type.endswith("txt") or file_type.endswith("md") or file_type.endswith("html"):
            update_progress(0.3, "使用MinerU解析器")
            # 创建临时文件保存文件内容
            temp_dir = tempfile.gettempdir()
            temp_file_path = os.path.join(temp_dir, f"{doc_id}{file_extension}")
            with open(temp_file_path, "wb") as f:
                f.write(file_content)

            logger.info(f"[Parser-INFO] 临时文件路径: {temp_file_path}")
            # 使用MinerU处理
            ds = read_local_office(temp_file_path)[0]
            infer_result = ds.apply(doc_analyze, ocr=True)

            # 设置临时输出目录
            temp_image_dir = os.path.join(temp_dir, f"images_{doc_id}")
            os.makedirs(temp_image_dir, exist_ok=True)
            image_writer = FileBasedDataWriter(temp_image_dir)

            update_progress(0.6, "处理文件结果")
            pipe_result = infer_result.pipe_txt_mode(image_writer)

            update_progress(0.8, "提取内容")
            content_list = pipe_result.get_content_list(os.path.basename(temp_image_dir))
            # 获取内容列表（JSON格式）
            middle_content = pipe_result.get_middle_json()
            middle_json_content = json.loads(middle_content)

        # 对excel文件单独进行处理
        elif file_type.endswith("excel"):
            update_progress(0.3, "使用MinerU解析器")
            # 创建临时文件保存文件内容
            temp_dir = tempfile.gettempdir()
            temp_file_path = os.path.join(temp_dir, f"{doc_id}{file_extension}")
            with open(temp_file_path, "wb") as f:
                f.write(file_content)

            logger.info(f"[Parser-INFO] 临时文件路径: {temp_file_path}")

            update_progress(0.8, "提取内容")
            # 处理内容列表
            content_list = parse_excel_file(temp_file_path)

        elif file_type.endswith("visual"):
            update_progress(0.3, "使用MinerU解析器")

            # 创建临时文件保存文件内容
            temp_dir = tempfile.gettempdir()
            temp_file_path = os.path.join(temp_dir, f"{doc_id}{file_extension}")
            with open(temp_file_path, "wb") as f:
                f.write(file_content)

            logger.info(f"[Parser-INFO] 临时文件路径: {temp_file_path}")
            # 使用MinerU处理
            ds = read_local_images(temp_file_path)[0]
            infer_result = ds.apply(doc_analyze, ocr=True)

            update_progress(0.3, "分析PDF类型")
            is_ocr = ds.classify() == SupportedPdfParseMethod.OCR
            mode_msg = "OCR模式" if is_ocr else "文本模式"
            update_progress(0.4, f"使用{mode_msg}处理PDF，处理中，具体进度可查看日志")

            infer_result = ds.apply(doc_analyze, ocr=is_ocr)

            # 设置临时输出目录
            temp_image_dir = os.path.join(temp_dir, f"images_{doc_id}")
            os.makedirs(temp_image_dir, exist_ok=True)
            image_writer = FileBasedDataWriter(temp_image_dir)

            update_progress(0.6, f"处理{mode_msg}结果")
            pipe_result = infer_result.pipe_ocr_mode(image_writer) if is_ocr else infer_result.pipe_txt_mode(image_writer)

            update_progress(0.8, "提取内容")
            content_list = pipe_result.get_content_list(os.path.basename(temp_image_dir))
            # 获取内容列表（JSON格式）
            middle_content = pipe_result.get_middle_json()
            middle_json_content = json.loads(middle_content)
        else:
            update_progress(0.3, f"暂不支持的文件类型: {file_type}")
            raise NotImplementedError(f"文件类型 '{file_type}' 的解析器尚未实现")

        # 解析 middle_json_content 并提取块信息
        block_info_list = []
        if middle_json_content:
            try:
                if isinstance(middle_json_content, dict):
                    middle_data = middle_json_content  # 直接赋值
                else:
                    middle_data = None
                    logger.warning(f"[Parser-WARNING] middle_json_content 不是预期的字典格式，实际类型: {type(middle_json_content)}。")
                # 提取信息
                for page_idx, page_data in enumerate(middle_data.get("pdf_info", [])):
                    for block in page_data.get("preproc_blocks", []):
                        block_bbox = get_bbox_from_block(block)
                        # 仅提取包含文本且有 bbox 的块
                        if block_bbox != [0, 0, 0, 0]:
                            block_info_list.append({"page_idx": page_idx, "bbox": block_bbox})
                        else:
                            logger.warning("[Parser-WARNING] 块的 bbox 格式无效，跳过。")

                    logger.info(f"[Parser-INFO] 从 middle_data 提取了 {len(block_info_list)} 个块的信息。")

            except json.JSONDecodeError:
                logger.error("[Parser-ERROR] 解析 middle_json_content 失败。")
                raise Exception("[Parser-ERROR] 解析 middle_json_content 失败。")
            except Exception as e:
                logger.error(f"[Parser-ERROR] 处理 middle_json_content 时出错: {e}")
                raise Exception(f"[Parser-ERROR] 处理 middle_json_content 时出错: {e}")

        # 3. 处理解析结果 (上传到MinIO, 存储到ES)
        update_progress(0.95, "保存解析结果")
        es_client = get_es_client()
        # 注意：MinIO的桶应该是知识库ID (kb_id)，而不是文件的 parent_id
        output_bucket = kb_id
        if not minio_client.bucket_exists(output_bucket):
            minio_client.make_bucket(output_bucket)
            logger.info(f"[Parser-INFO] 创建MinIO桶: {output_bucket}")

        index_name = f"ragflow_{tenant_id}"
        if not es_client.indices.exists(index=index_name):
            # 创建索引
            es_client.indices.create(
                index=index_name,
                body={
                    "settings": {"number_of_replicas": 0},
                    "mappings": {
                        "properties": {"doc_id": {"type": "keyword"}, "kb_id": {"type": "keyword"}, "content_with_weight": {"type": "text"}, "q_1024_vec": {"type": "dense_vector", "dims": 1024}}
                    },
                },
            )
            logger.info(f"[Parser-INFO] 创建Elasticsearch索引: {index_name}")

        chunk_count = 0
        chunk_ids_list = []

        for chunk_idx, chunk_data in enumerate(content_list):
            page_idx = 0  # 默认页面索引
            bbox = [0, 0, 0, 0]  # 默认 bbox

            # 尝试使用 chunk_idx 直接从 block_info_list 获取对应的块信息
            if chunk_idx < len(block_info_list):
                block_info = block_info_list[chunk_idx]
                page_idx = block_info.get("page_idx", 0)
                bbox = block_info.get("bbox", [0, 0, 0, 0])
                # 验证 bbox 是否有效，如果无效则重置为默认值 (可选，取决于是否需要严格验证)
                if not (isinstance(bbox, list) and len(bbox) == 4 and all(isinstance(n, (int, float)) for n in bbox)):
                    logger.info(f"[Parser-WARNING] Chunk {chunk_idx} 对应的 bbox 格式无效: {bbox}，将使用默认值。")
                    bbox = [0, 0, 0, 0]
            else:
                # 如果 block_info_list 的长度小于 content_list，打印警告
                # 仅在第一次索引越界时打印一次警告，避免刷屏
                if chunk_idx == len(block_info_list):
                    logger.warning(f"[Parser-WARNING] block_info_list 的长度 ({len(block_info_list)}) 小于 content_list 的长度 ({len(content_list)})。后续块将使用默认 page_idx 和 bbox。")

            if chunk_data["type"] == "text" or chunk_data["type"] == "table" or chunk_data["type"] == "equation":
                if chunk_data["type"] == "text":
                    content = chunk_data["text"]
                    if not content or not content.strip():
                        continue
                    # 过滤 markdown 特殊符号
                    content = re.sub(r"[!#\\$/]", "", content)
                elif chunk_data["type"] == "equation":
                    content = chunk_data["text"]
                    if not content or not content.strip():
                        continue
                elif chunk_data["type"] == "table":
                    caption_list = chunk_data.get("table_caption", [])  # 获取列表，默认为空列表
                    table_body = chunk_data.get("table_body", "")  # 获取表格主体，默认为空字符串

                    # 如果表格主体为空，说明无实际内容，跳过该表格块
                    if not table_body.strip():
                        continue

                    # 检查 caption_list 是否为列表，并且包含字符串元素
                    if isinstance(caption_list, list) and all(isinstance(item, str) for item in caption_list):
                        # 使用空格将列表中的所有字符串拼接起来
                        caption_str = " ".join(caption_list)
                    elif isinstance(caption_list, str):
                        # 如果 caption 本身就是字符串，直接使用
                        caption_str = caption_list
                    else:
                        # 其他情况（如空列表、None 或非字符串列表），使用空字符串
                        caption_str = ""
                    # 将处理后的标题字符串和表格主体拼接
                    content = caption_str + table_body

                q_1024_vec = []  # 初始化为空列表
                # 获取embedding向量
                try:
                    # embedding_resp = requests.post(
                    #     "http://localhost:8000/v1/embeddings",
                    #     json={
                    #         "model": "bge-m3",  # 你的embedding模型名
                    #         "input": content
                    #     },
                    #     timeout=10
                    # )
                    headers = {"Content-Type": "application/json"}
                    if embedding_api_key:
                        headers["Authorization"] = f"Bearer {embedding_api_key}"

                    if is_ollama:
                        embedding_resp = requests.post(
                            embedding_url,  # 使用动态构建的 URL
                            headers=headers,  # 添加 headers (包含可能的 API Key)
                            json={
                                "model": embedding_model_name,  # 使用动态获取或默认的模型名
                                "prompt": content,
                            },
                            timeout=15,  # 稍微增加超时时间
                        )
                    else:
                        embedding_resp = requests.post(
                            embedding_url,  # 使用动态构建的 URL
                            headers=headers,  # 添加 headers (包含可能的 API Key)
                            json={
                                "model": embedding_model_name,  # 使用动态获取或默认的模型名
                                "input": content,
                            },
                            timeout=15,  # 稍微增加超时时间
                        )

                    embedding_resp.raise_for_status()
                    embedding_data = embedding_resp.json()

                    # 对ollama嵌入模型的接口返回值进行特殊处理
                    if is_ollama:
                        q_1024_vec = embedding_data.get("embedding")
                    else:
                        q_1024_vec = embedding_data["data"][0]["embedding"]
                    # logger.info(f"[Parser-INFO] 获取embedding成功，长度: {len(q_1024_vec)}")

                    # 检查向量维度是否为1024
                    if len(q_1024_vec) != 1024:
                        error_msg = f"[Parser-ERROR] Embedding向量维度不是1024，实际维度: {len(q_1024_vec)}, 建议使用bge-m3模型"
                        logger.error(error_msg)
                        update_progress(-5, error_msg)
                        raise ValueError(error_msg)
                except Exception as e:
                    logger.error(f"[Parser-ERROR] 获取embedding失败: {e}")
                    raise Exception(f"[Parser-ERROR] 获取embedding失败: {e}")

                chunk_id = generate_uuid()

                try:
                    # 准备ES文档
                    current_time_es = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
                    current_timestamp_es = datetime.now().timestamp()

                    # 转换坐标格式
                    x1, y1, x2, y2 = bbox
                    bbox_reordered = [x1, x2, y1, y2]

                    es_doc = {
                        "doc_id": doc_id,
                        "kb_id": kb_id,
                        "docnm_kwd": doc_info["name"],
                        "title_tks": tokenize_text(doc_info["name"]),
                        "title_sm_tks": tokenize_text(doc_info["name"]),
                        "content_with_weight": content,
                        "content_ltks": tokenize_text(content),
                        "content_sm_ltks": tokenize_text(content),
                        "page_num_int": [page_idx + 1],
                        "position_int": [[page_idx + 1] + bbox_reordered],  # 格式: [[page, x1, x2, y1, y2]]
                        "top_int": [1],
                        "create_time": current_time_es,
                        "create_timestamp_flt": current_timestamp_es,
                        "img_id": "",
                        "q_1024_vec": q_1024_vec,
                    }

                    # 存储到Elasticsearch
                    es_client.index(index=index_name, id=chunk_id, document=es_doc)  # 使用 document 参数

                    chunk_count += 1
                    chunk_ids_list.append(chunk_id)

                except Exception as e:
                    logger.error(f"[Parser-ERROR] 处理文本块 {chunk_idx} (page: {page_idx}, bbox: {bbox}) 失败: {e}")
                    raise Exception(f"[Parser-ERROR] 处理文本块 {chunk_idx} (page: {page_idx}, bbox: {bbox}) 失败: {e}")

            elif chunk_data["type"] == "image":
                img_path_relative = chunk_data.get("img_path")
                if not img_path_relative or not temp_image_dir:
                    continue

                img_path_abs = os.path.join(temp_image_dir, os.path.basename(img_path_relative))
                if not os.path.exists(img_path_abs):
                    logger.warning(f"[Parser-WARNING] 图片文件不存在: {img_path_abs}")
                    continue

                img_id = generate_uuid()
                img_ext = os.path.splitext(img_path_abs)[1]
                img_key = f"images/{img_id}{img_ext}"  # MinIO中的对象名
                content_type = f"image/{img_ext[1:].lower()}"
                if content_type == "image/jpg":
                    content_type = "image/jpeg"

                try:
                    # 上传图片到MinIO (桶为kb_id)
                    minio_client.fput_object(bucket_name=output_bucket, object_name=img_key, file_path=img_path_abs, content_type=content_type)

                    # 设置图片的公共访问权限
                    policy = {"Version": "2012-10-17", "Statement": [{"Effect": "Allow", "Principal": {"AWS": "*"}, "Action": ["s3:GetObject"], "Resource": [f"arn:aws:s3:::{kb_id}/images/*"]}]}
                    minio_client.set_bucket_policy(kb_id, json.dumps(policy))

                    logger.info(f"成功上传图片: {img_key}")
                    minio_endpoint = MINIO_CONFIG["endpoint"]
                    use_ssl = MINIO_CONFIG.get("secure", False)
                    protocol = "https" if use_ssl else "http"
                    img_url = f"{protocol}://{minio_endpoint}/{output_bucket}/{img_key}"

                    # 记录图片信息，包括URL和位置信息
                    image_info = {
                        "url": img_url,
                        "position": chunk_count,  # 使用当前处理的文本块数作为位置参考
                    }
                    image_info_list.append(image_info)

                    logger.info(f"图片访问链接: {img_url}")

                except Exception as e:
                    logger.error(f"[Parser-ERROR] 上传图片 {img_path_abs} 失败: {e}")
                    raise Exception(f"[Parser-ERROR] 上传图片 {img_path_abs} 失败: {e}")

        # 打印匹配总结信息
        logger.info(f"[Parser-INFO] 共处理 {chunk_count} 个文本块。")

        # 4. 更新文本块的图像信息
        if image_info_list and chunk_ids_list:

            try:

                # 为每个文本块找到最近的图片
                for i, chunk_id in enumerate(chunk_ids_list):
                    # 找到与当前文本块最近的图片
                    nearest_image = None

                    for img_info in image_info_list:
                        # 计算文本块与图片的"距离"
                        distance = abs(i - img_info["position"])  # 使用位置差作为距离度量
                        # 如果文本块与图片的距离间隔小于5个块,则认为块与图片是相关的
                        if distance < 5:
                            nearest_image = img_info

                    # 如果找到了最近的图片，则更新文本块的img_id
                    if nearest_image:
                        # 存储相对路径部分
                        parsed_url = urlparse(nearest_image["url"])
                        relative_path = parsed_url.path.lstrip("/")  # 去掉开头的斜杠
                        # 更新ES中的文档
                        direct_update = {"doc": {"img_id": relative_path}}
                        es_client.update(index=index_name, id=chunk_id, body=direct_update, refresh=True)
                        index_name = f"ragflow_{tenant_id}"
                        logger.info(f"[Parser-INFO] 更新文本块 {chunk_id} 的图片关联: {relative_path}")

            except Exception as e:
                logger.error(f"[Parser-ERROR] 更新文本块图片关联失败: {e}")
                raise Exception(f"[Parser-ERROR] 更新文本块图片关联失败: {e}")


        # 5. 更新最终状态
        process_duration = time.time() - start_time
        _update_document_progress(doc_id, progress=1.0, message="解析完成", status="1", run="3", chunk_count=chunk_count, process_duration=process_duration)
        _update_kb_chunk_count(kb_id, chunk_count)  # 更新知识库总块数
        _create_task_record(doc_id, chunk_ids_list)  # 创建task记录

        update_progress(1.0, "解析完成")
        logger.info(f"[Parser-INFO] 解析完成，文档ID: {doc_id}, 耗时: {process_duration:.2f}s, 块数: {chunk_count}")

        return {"success": True, "chunk_count": chunk_count}

    except Exception as e:
        process_duration = time.time() - start_time
        # error_message = f"解析失败: {str(e)}"
        logger.error(f"[Parser-ERROR] 文档 {doc_id} 解析失败: {e}")
        error_message = f"解析失败: {e}"
        # 更新文档状态为失败
        _update_document_progress(doc_id, status="1", run="0", message=error_message, process_duration=process_duration)  # status=1表示完成，run=0表示失败
        return {"success": False, "error": error_message}

    finally:
        # 清理临时文件
        try:
            if temp_pdf_path and os.path.exists(temp_pdf_path):
                os.remove(temp_pdf_path)
            if temp_image_dir and os.path.exists(temp_image_dir):
                shutil.rmtree(temp_image_dir, ignore_errors=True)
        except Exception as clean_e:
            logger.error(f"[Parser-WARNING] 清理临时文件失败: {clean_e}")
-												chores: 调整解析文件结构，增强可读性

											
										
										
											2025-06-12 22:17:41 +08:00
+								#  Copyright 2025 zstar1003. All Rights Reserved.
 								#  Project source code: https://github.com/zstar1003/ragflow-plus
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								import json
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								import os
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								import re
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								import shutil
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								import tempfile
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								import time
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								from datetime import datetime
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								from urllib.parse import urlparse
 								import requests
 								from database import MINIO_CONFIG, get_db_connection, get_es_client, get_minio_client
 								from magic_pdf.config.enums import SupportedPdfParseMethod
 								from magic_pdf.data.data_reader_writer import FileBasedDataReader, FileBasedDataWriter
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								from magic_pdf.data.dataset import PymuDocDataset
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								from magic_pdf.data.read_api import read_local_images, read_local_office
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
-												chores: 调整解析文件结构，增强可读性

											
										
										
											2025-06-12 22:17:41 +08:00
+								from . import logger
-												feat: 增加支持对csv格式文件的上传和解析

											
										
										
											2025-06-12 22:50:19 +08:00
+								from .excel_parser import parse_excel_file
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								from .rag_tokenizer import RagTokenizer
-												chores: 调整解析文件结构，增强可读性

											
										
										
											2025-06-12 22:17:41 +08:00
+								from .utils import _create_task_record, _update_document_progress, _update_kb_chunk_count, generate_uuid, get_bbox_from_block
-												refactor(tokenizer): 实现解析分词，和原版分词同步

- 新增 RagTokenizer 类，实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作，提高处理效率和准确性
- 移除知识图谱相关无用代码，简化文档结构
- 添加 tokenizer 依赖到 requirements.txt

											
										
										
											2025-06-01 20:46:29 +08:00
 								tknzr = RagTokenizer()
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								def tokenize_text(text):
-												refactor: 上调TopNItem 组件最大值为100

											
										
										
											2025-06-07 16:14:33 +08:00
+								    """使用分词器对文本进行分词"""
-												refactor(tokenizer): 实现解析分词，和原版分词同步

- 新增 RagTokenizer 类，实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作，提高处理效率和准确性
- 移除知识图谱相关无用代码，简化文档结构
- 添加 tokenizer 依赖到 requirements.txt

											
										
										
											2025-06-01 20:46:29 +08:00
+								    return tknzr.tokenize(text)
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												fix(knowledgebase): 修复私人知识库访问权限问题

- 修改文档解析逻辑，使用知识库创建者作为 tenant_id

											
										
										
											2025-06-02 01:48:11 +08:00
+								def perform_parse(doc_id, doc_info, file_info, embedding_config, kb_info):
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								    """
 								    执行文档解析的核心逻辑
 								    Args:
 								        doc_id (str): 文档ID.
 								        doc_info (dict): 包含文档信息的字典 (name, location, type, kb_id, parser_config, created_by).
 								        file_info (dict): 包含文件信息的字典 (parent_id/bucket_name).
-												fix(knowledgebase): 修复私人知识库访问权限问题

- 修改文档解析逻辑，使用知识库创建者作为 tenant_id

											
										
										
											2025-06-02 01:48:11 +08:00
+								        kb_info (dict): 包含知识库信息的字典 (created_by).
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								    Returns:
 								        dict: 包含解析结果的字典 (success, chunk_count).
 								    """
 								    temp_pdf_path = None
 								    temp_image_dir = None
 								    start_time = time.time()
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								    middle_json_content = None  # 初始化 middle_json_content
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								    image_info_list = []  # 图片信息列表
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								    # 默认值处理
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								    embedding_model_name = embedding_config.get("llm_name") if embedding_config and embedding_config.get("llm_name") else "bge-m3"  # 默认模型
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								    # 对模型名称进行处理
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								    if embedding_model_name and "___" in embedding_model_name:
 								        embedding_model_name = embedding_model_name.split("___")[0]
-												feat(文档解析): 适配硅基流动平台并优化Embedding配置处理 (#97) (#97)


											
										
										
											2025-05-16 13:48:16 +08:00
 								    # 替换特定模型名称(对硅基流动平台进行特异性处理)
 								    if embedding_model_name == "netease-youdao/bce-embedding-base_v1":
 								        embedding_model_name = "BAAI/bge-m3"
-												feat(knowledgebase): 添加知识库头像功能

- 在知识库详情中增加头像字段
- 实现知识库头像的上传和显示功能
- 优化知识库编辑界面，支持头像修改
- 调整后端 API 和数据库以支持头像存储

											
										
										
											2025-06-13 18:28:49 +08:00
+								    embedding_api_base = embedding_config.get("api_base") if embedding_config and embedding_config.get("api_base") else "http://localhost:11434"  # 默认基础 URL
-												feat(文档解析): 适配硅基流动平台并优化Embedding配置处理 (#97) (#97)


											
										
										
											2025-05-16 13:48:16 +08:00
 								    # 如果 API 基础地址为空字符串，设置为硅基流动的 API 地址
 								    if embedding_api_base == "":
 								        embedding_api_base = "https://api.siliconflow.cn/v1/embeddings"
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								        logger.info(f"[Parser-INFO] API 基础地址为空，已设置为硅基流动的 API 地址: {embedding_api_base}")
-												feat(文档解析): 适配硅基流动平台并优化Embedding配置处理 (#97) (#97)


											
										
										
											2025-05-16 13:48:16 +08:00
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								    embedding_api_key = embedding_config.get("api_key") if embedding_config else None  # 可能为 None 或空字符串
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								    # 构建完整的 Embedding API URL
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								    embedding_url = None  # 默认为 None
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								    if embedding_api_base:
-												refactor: 优化 Embedding URL 拼接逻辑，以兼容vllm和ollama等不同框架 (#50)

- 在 document_parser.py 和 service.py 中优化 Embedding URL 拼接逻辑，支持不同形式的 base_url
- 在 axios.ts 中将 400 错误消息从 "账号密码不正确" 更新为 "请求错误"
											
										
										
											2025-04-24 23:29:47 +08:00
+								        # 确保 embedding_api_base 包含协议头 (http:// 或 https://)
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								        if not embedding_api_base.startswith(("http://", "https://")):
 								            embedding_api_base = "http://" + embedding_api_base
-												refactor: 优化 Embedding URL 拼接逻辑，以兼容vllm和ollama等不同框架 (#50)

- 在 document_parser.py 和 service.py 中优化 Embedding URL 拼接逻辑，支持不同形式的 base_url
- 在 axios.ts 中将 400 错误消息从 "账号密码不正确" 更新为 "请求错误"
											
										
										
											2025-04-24 23:29:47 +08:00
 								        # 移除末尾斜杠以方便判断
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								        normalized_base_url = embedding_api_base.rstrip("/")
-												refactor: 优化 Embedding URL 拼接逻辑，以兼容vllm和ollama等不同框架 (#50)

- 在 document_parser.py 和 service.py 中优化 Embedding URL 拼接逻辑，支持不同形式的 base_url
- 在 axios.ts 中将 400 错误消息从 "账号密码不正确" 更新为 "请求错误"
											
										
										
											2025-04-24 23:29:47 +08:00
-												fix: 修复Ollama嵌入模型接口和前台不一致的问题 issue#65

											
										
										
											2025-06-05 14:35:23 +08:00
+								        # 如果请求url端口号为11434，则认为是ollama模型，采用ollama特定的api
 								        is_ollama = "11434" in normalized_base_url
 								        if is_ollama:
 								            # Ollama 的特殊接口路径
 								            embedding_url = normalized_base_url + "/api/embeddings"
 								        elif normalized_base_url.endswith("/v1"):
 								            embedding_url = normalized_base_url + "/embeddings"
-												refactor(tokenizer): 实现解析分词，和原版分词同步

- 新增 RagTokenizer 类，实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作，提高处理效率和准确性
- 移除知识图谱相关无用代码，简化文档结构
- 添加 tokenizer 依赖到 requirements.txt

											
										
										
											2025-06-01 20:46:29 +08:00
+								        elif normalized_base_url.endswith("/embeddings"):
-												feat(文档解析): 适配硅基流动平台并优化Embedding配置处理 (#97) (#97)


											
										
										
											2025-05-16 13:48:16 +08:00
+								            embedding_url = normalized_base_url
-												refactor: 优化 Embedding URL 拼接逻辑，以兼容vllm和ollama等不同框架 (#50)

- 在 document_parser.py 和 service.py 中优化 Embedding URL 拼接逻辑，支持不同形式的 base_url
- 在 axios.ts 中将 400 错误消息从 "账号密码不正确" 更新为 "请求错误"
											
										
										
											2025-04-24 23:29:47 +08:00
+								        else:
-												fix: 修复Ollama嵌入模型接口和前台不一致的问题 issue#65

											
										
										
											2025-06-05 14:35:23 +08:00
+								            embedding_url = normalized_base_url + "/v1/embeddings"
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								    logger.info(f"[Parser-INFO] 使用 Embedding 配置: URL='{embedding_url}', Model='{embedding_model_name}', Key={embedding_api_key}")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								    try:
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								        kb_id = doc_info["kb_id"]
 								        file_location = doc_info["location"]
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								        # 从文件路径中提取原始后缀名
 								        _, file_extension = os.path.splitext(file_location)
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								        file_type = doc_info["type"].lower()
 								        bucket_name = file_info["parent_id"]  # 文件存储的桶是 parent_id
-												fix(knowledgebase): 修复私人知识库访问权限问题

- 修改文档解析逻辑，使用知识库创建者作为 tenant_id

											
										
										
											2025-06-02 01:48:11 +08:00
+								        tenant_id = kb_info["created_by"]  # 知识库创建者作为 tenant_id
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								        # 进度更新回调 (直接调用内部更新函数)
 								        def update_progress(prog=None, msg=None):
 								            _update_document_progress(doc_id, progress=prog, message=msg)
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								            logger.info(f"[Parser-PROGRESS] Doc: {doc_id}, Progress: {prog}, Message: {msg}")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								        # 1. 从 MinIO 获取文件内容
 								        minio_client = get_minio_client()
 								        if not minio_client.bucket_exists(bucket_name):
 								            raise Exception(f"存储桶不存在: {bucket_name}")
 								        update_progress(0.1, f"正在从存储中获取文件: {file_location}")
 								        response = minio_client.get_object(bucket_name, file_location)
 								        file_content = response.read()
 								        response.close()
 								        update_progress(0.2, "文件获取成功，准备解析")
 								        # 2. 根据文件类型选择解析器
 								        content_list = []
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								        if file_type.endswith("pdf"):
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            update_progress(0.3, "使用MinerU解析器")
 								            # 创建临时文件保存PDF内容
 								            temp_dir = tempfile.gettempdir()
 								            temp_pdf_path = os.path.join(temp_dir, f"{doc_id}.pdf")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								            with open(temp_pdf_path, "wb") as f:
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                f.write(file_content)
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								            # 使用MinerU处理
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            reader = FileBasedDataReader("")
 								            pdf_bytes = reader.read(temp_pdf_path)
 								            ds = PymuDocDataset(pdf_bytes)
 								            update_progress(0.3, "分析PDF类型")
 								            is_ocr = ds.classify() == SupportedPdfParseMethod.OCR
 								            mode_msg = "OCR模式" if is_ocr else "文本模式"
-												fix:适配新版本task的表结构，解决Unknown column 'priority'in 'field list' 报错信息

											
										
										
											2025-06-05 11:34:45 +08:00
+								            update_progress(0.4, f"使用{mode_msg}处理PDF，处理中，具体进度可查看容器日志")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								            infer_result = ds.apply(doc_analyze, ocr=is_ocr)
 								            # 设置临时输出目录
 								            temp_image_dir = os.path.join(temp_dir, f"images_{doc_id}")
 								            os.makedirs(temp_image_dir, exist_ok=True)
 								            image_writer = FileBasedDataWriter(temp_image_dir)
 								            update_progress(0.6, f"处理{mode_msg}结果")
 								            pipe_result = infer_result.pipe_ocr_mode(image_writer) if is_ocr else infer_result.pipe_txt_mode(image_writer)
 								            update_progress(0.8, "提取内容")
 								            content_list = pipe_result.get_content_list(os.path.basename(temp_image_dir))
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								            # 获取内容列表（JSON格式）
 								            middle_content = pipe_result.get_middle_json()
 								            middle_json_content = json.loads(middle_content)
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
-												feat(文件管理): 新增支持HTML文件类型解析并完善许可证说明 (#95)


											
										
										
											2025-05-15 00:31:41 +08:00
+								        elif file_type.endswith("word") or file_type.endswith("ppt") or file_type.endswith("txt") or file_type.endswith("md") or file_type.endswith("html"):
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            update_progress(0.3, "使用MinerU解析器")
 								            # 创建临时文件保存文件内容
 								            temp_dir = tempfile.gettempdir()
 								            temp_file_path = os.path.join(temp_dir, f"{doc_id}{file_extension}")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								            with open(temp_file_path, "wb") as f:
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                f.write(file_content)
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								            logger.info(f"[Parser-INFO] 临时文件路径: {temp_file_path}")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            # 使用MinerU处理
 								            ds = read_local_office(temp_file_path)[0]
 								            infer_result = ds.apply(doc_analyze, ocr=True)
 								            # 设置临时输出目录
 								            temp_image_dir = os.path.join(temp_dir, f"images_{doc_id}")
 								            os.makedirs(temp_image_dir, exist_ok=True)
 								            image_writer = FileBasedDataWriter(temp_image_dir)
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								            update_progress(0.6, "处理文件结果")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            pipe_result = infer_result.pipe_txt_mode(image_writer)
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								            update_progress(0.8, "提取内容")
 								            content_list = pipe_result.get_content_list(os.path.basename(temp_image_dir))
 								            # 获取内容列表（JSON格式）
 								            middle_content = pipe_result.get_middle_json()
 								            middle_json_content = json.loads(middle_content)
-												refactor(knowledgebases): 重构excel文件的解析逻辑

											
										
										
											2025-06-02 18:10:22 +08:00
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								        # 对excel文件单独进行处理
-												refactor(tokenizer): 实现解析分词，和原版分词同步

- 新增 RagTokenizer 类，实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作，提高处理效率和准确性
- 移除知识图谱相关无用代码，简化文档结构
- 添加 tokenizer 依赖到 requirements.txt

											
										
										
											2025-06-01 20:46:29 +08:00
+								        elif file_type.endswith("excel"):
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								            update_progress(0.3, "使用MinerU解析器")
 								            # 创建临时文件保存文件内容
 								            temp_dir = tempfile.gettempdir()
 								            temp_file_path = os.path.join(temp_dir, f"{doc_id}{file_extension}")
 								            with open(temp_file_path, "wb") as f:
 								                f.write(file_content)
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								            logger.info(f"[Parser-INFO] 临时文件路径: {temp_file_path}")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
 								            update_progress(0.8, "提取内容")
 								            # 处理内容列表
-												feat: 增加支持对csv格式文件的上传和解析

											
										
										
											2025-06-12 22:50:19 +08:00
+								            content_list = parse_excel_file(temp_file_path)
-												refactor(knowledgebases): 重构excel文件的解析逻辑

											
										
										
											2025-06-02 18:10:22 +08:00
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								        elif file_type.endswith("visual"):
 								            update_progress(0.3, "使用MinerU解析器")
 								            # 创建临时文件保存文件内容
 								            temp_dir = tempfile.gettempdir()
 								            temp_file_path = os.path.join(temp_dir, f"{doc_id}{file_extension}")
 								            with open(temp_file_path, "wb") as f:
 								                f.write(file_content)
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								            logger.info(f"[Parser-INFO] 临时文件路径: {temp_file_path}")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								            # 使用MinerU处理
 								            ds = read_local_images(temp_file_path)[0]
 								            infer_result = ds.apply(doc_analyze, ocr=True)
-												refactor(tokenizer): 实现解析分词，和原版分词同步

- 新增 RagTokenizer 类，实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作，提高处理效率和准确性
- 移除知识图谱相关无用代码，简化文档结构
- 添加 tokenizer 依赖到 requirements.txt

											
										
										
											2025-06-01 20:46:29 +08:00
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								            update_progress(0.3, "分析PDF类型")
 								            is_ocr = ds.classify() == SupportedPdfParseMethod.OCR
 								            mode_msg = "OCR模式" if is_ocr else "文本模式"
-												refactor(knowledgebases): 重构excel文件的解析逻辑

											
										
										
											2025-06-02 18:10:22 +08:00
+								            update_progress(0.4, f"使用{mode_msg}处理PDF，处理中，具体进度可查看日志")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
 								            infer_result = ds.apply(doc_analyze, ocr=is_ocr)
 								            # 设置临时输出目录
 								            temp_image_dir = os.path.join(temp_dir, f"images_{doc_id}")
 								            os.makedirs(temp_image_dir, exist_ok=True)
 								            image_writer = FileBasedDataWriter(temp_image_dir)
 								            update_progress(0.6, f"处理{mode_msg}结果")
 								            pipe_result = infer_result.pipe_ocr_mode(image_writer) if is_ocr else infer_result.pipe_txt_mode(image_writer)
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            update_progress(0.8, "提取内容")
 								            content_list = pipe_result.get_content_list(os.path.basename(temp_image_dir))
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								            # 获取内容列表（JSON格式）
 								            middle_content = pipe_result.get_middle_json()
 								            middle_json_content = json.loads(middle_content)
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								        else:
 								            update_progress(0.3, f"暂不支持的文件类型: {file_type}")
 								            raise NotImplementedError(f"文件类型 '{file_type}' 的解析器尚未实现")
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								        # 解析 middle_json_content 并提取块信息
 								        block_info_list = []
 								        if middle_json_content:
 								            try:
 								                if isinstance(middle_json_content, dict):
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                    middle_data = middle_json_content  # 直接赋值
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								                else:
 								                    middle_data = None
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.warning(f"[Parser-WARNING] middle_json_content 不是预期的字典格式，实际类型: {type(middle_json_content)}。")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                # 提取信息
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								                for page_idx, page_data in enumerate(middle_data.get("pdf_info", [])):
 								                    for block in page_data.get("preproc_blocks", []):
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								                        block_bbox = get_bbox_from_block(block)
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								                        # 仅提取包含文本且有 bbox 的块
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								                        if block_bbox != [0, 0, 0, 0]:
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                            block_info_list.append({"page_idx": page_idx, "bbox": block_bbox})
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								                        else:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                            logger.warning("[Parser-WARNING] 块的 bbox 格式无效，跳过。")
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.info(f"[Parser-INFO] 从 middle_data 提取了 {len(block_info_list)} 个块的信息。")
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
 								            except json.JSONDecodeError:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                logger.error("[Parser-ERROR] 解析 middle_json_content 失败。")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								                raise Exception("[Parser-ERROR] 解析 middle_json_content 失败。")
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								            except Exception as e:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                logger.error(f"[Parser-ERROR] 处理 middle_json_content 时出错: {e}")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								                raise Exception(f"[Parser-ERROR] 处理 middle_json_content 时出错: {e}")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								        # 3. 处理解析结果 (上传到MinIO, 存储到ES)
 								        update_progress(0.95, "保存解析结果")
 								        es_client = get_es_client()
 								        # 注意：MinIO的桶应该是知识库ID (kb_id)，而不是文件的 parent_id
 								        output_bucket = kb_id
 								        if not minio_client.bucket_exists(output_bucket):
 								            minio_client.make_bucket(output_bucket)
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								            logger.info(f"[Parser-INFO] 创建MinIO桶: {output_bucket}")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								        index_name = f"ragflow_{tenant_id}"
 								        if not es_client.indices.exists(index=index_name):
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								            # 创建索引
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            es_client.indices.create(
 								                index=index_name,
 								                body={
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    "settings": {"number_of_replicas": 0},
 								                    "mappings": {
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                        "properties": {"doc_id": {"type": "keyword"}, "kb_id": {"type": "keyword"}, "content_with_weight": {"type": "text"}, "q_1024_vec": {"type": "dense_vector", "dims": 1024}}
 								                    },
 								                },
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								            )
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								            logger.info(f"[Parser-INFO] 创建Elasticsearch索引: {index_name}")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								        chunk_count = 0
 								        chunk_ids_list = []
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								        for chunk_idx, chunk_data in enumerate(content_list):
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								            page_idx = 0  # 默认页面索引
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								            bbox = [0, 0, 0, 0]  # 默认 bbox
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
 								            # 尝试使用 chunk_idx 直接从 block_info_list 获取对应的块信息
 								            if chunk_idx < len(block_info_list):
 								                block_info = block_info_list[chunk_idx]
 								                page_idx = block_info.get("page_idx", 0)
 								                bbox = block_info.get("bbox", [0, 0, 0, 0])
 								                # 验证 bbox 是否有效，如果无效则重置为默认值 (可选，取决于是否需要严格验证)
 								                if not (isinstance(bbox, list) and len(bbox) == 4 and all(isinstance(n, (int, float)) for n in bbox)):
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.info(f"[Parser-WARNING] Chunk {chunk_idx} 对应的 bbox 格式无效: {bbox}，将使用默认值。")
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								                    bbox = [0, 0, 0, 0]
 								            else:
 								                # 如果 block_info_list 的长度小于 content_list，打印警告
 								                # 仅在第一次索引越界时打印一次警告，避免刷屏
 								                if chunk_idx == len(block_info_list):
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.warning(f"[Parser-WARNING] block_info_list 的长度 ({len(block_info_list)}) 小于 content_list 的长度 ({len(content_list)})。后续块将使用默认 page_idx 和 bbox。")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat(document_parser): 支持解析数学公式类型的数据块

- 在文本和表格类型之外，增加了对数学公式（equation）类型数据块的处理

											
										
										
											2025-06-02 13:47:15 +08:00
+								            if chunk_data["type"] == "text" or chunk_data["type"] == "table" or chunk_data["type"] == "equation":
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								                if chunk_data["type"] == "text":
 								                    content = chunk_data["text"]
 								                    if not content or not content.strip():
 								                        continue
 								                    # 过滤 markdown 特殊符号
 								                    content = re.sub(r"[!#\\$/]", "", content)
-												feat(document_parser): 支持解析数学公式类型的数据块

- 在文本和表格类型之外，增加了对数学公式（equation）类型数据块的处理

											
										
										
											2025-06-02 13:47:15 +08:00
+								                elif chunk_data["type"] == "equation":
 								                    content = chunk_data["text"]
 								                    if not content or not content.strip():
 								                        continue
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								                elif chunk_data["type"] == "table":
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                    caption_list = chunk_data.get("table_caption", [])  # 获取列表，默认为空列表
 								                    table_body = chunk_data.get("table_body", "")  # 获取表格主体，默认为空字符串
-												fix(knowledgebases): 修复解析表格类型内容块时，内容为空造成的异常问题

											
										
										
											2025-06-06 18:27:12 +08:00
 								                    # 如果表格主体为空，说明无实际内容，跳过该表格块
 								                    if not table_body.strip():
 								                        continue
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								                    # 检查 caption_list 是否为列表，并且包含字符串元素
 								                    if isinstance(caption_list, list) and all(isinstance(item, str) for item in caption_list):
 								                        # 使用空格将列表中的所有字符串拼接起来
 								                        caption_str = " ".join(caption_list)
 								                    elif isinstance(caption_list, str):
 								                        # 如果 caption 本身就是字符串，直接使用
 								                        caption_str = caption_list
 								                    else:
 								                        # 其他情况（如空列表、None 或非字符串列表），使用空字符串
 								                        caption_str = ""
 								                    # 将处理后的标题字符串和表格主体拼接
 								                    content = caption_str + table_body
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
 								                q_1024_vec = []  # 初始化为空列表
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                # 获取embedding向量
 								                try:
 								                    # embedding_resp = requests.post(
 								                    #     "http://localhost:8000/v1/embeddings",
 								                    #     json={
 								                    #         "model": "bge-m3",  # 你的embedding模型名
 								                    #         "input": content
 								                    #     },
 								                    #     timeout=10
 								                    # )
 								                    headers = {"Content-Type": "application/json"}
 								                    if embedding_api_key:
 								                        headers["Authorization"] = f"Bearer {embedding_api_key}"
-												refactor(server): 适配 Ollama 接口 /api/embeddings url

- 修改文档解析服务中的嵌入式请求，以适配 Ollama 接口
- 根据 is_ollama 标志动态调整请求参数，使用 "prompt" 替代 "input"
- 保持其他功能和接口不变

											
										
										
											2025-06-05 15:00:52 +08:00
+								                    if is_ollama:
 								                        embedding_resp = requests.post(
 								                            embedding_url,  # 使用动态构建的 URL
 								                            headers=headers,  # 添加 headers (包含可能的 API Key)
 								                            json={
 								                                "model": embedding_model_name,  # 使用动态获取或默认的模型名
 								                                "prompt": content,
 								                            },
 								                            timeout=15,  # 稍微增加超时时间
 								                        )
 								                    else:
 								                        embedding_resp = requests.post(
 								                            embedding_url,  # 使用动态构建的 URL
 								                            headers=headers,  # 添加 headers (包含可能的 API Key)
 								                            json={
 								                                "model": embedding_model_name,  # 使用动态获取或默认的模型名
 								                                "input": content,
 								                            },
 								                            timeout=15,  # 稍微增加超时时间
 								                        )
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    embedding_resp.raise_for_status()
 								                    embedding_data = embedding_resp.json()
-												fix: 修复Ollama嵌入模型接口和前台不一致的问题 issue#65

											
										
										
											2025-06-05 14:35:23 +08:00
 								                    # 对ollama嵌入模型的接口返回值进行特殊处理
 								                    if is_ollama:
 								                        q_1024_vec = embedding_data.get("embedding")
 								                    else:
 								                        q_1024_vec = embedding_data["data"][0]["embedding"]
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    # logger.info(f"[Parser-INFO] 获取embedding成功，长度: {len(q_1024_vec)}")
-												fix: 修复Ollama嵌入模型接口和前台不一致的问题 issue#65

											
										
										
											2025-06-05 14:35:23 +08:00
-												feat：知识库精细化管理 (#96)

* feat(知识库管理): 新增知识库创建人选择功能 (#96)

* "feat(知识库管理): 新增知识库权限修改功能并扩展操作列宽度 (#97)"

* feat(文档解析): 添加embedding向量维度校验，确保维度为1024并提示使用bge-m3模型
											
										
										
											2025-05-15 16:01:39 +08:00
+								                    # 检查向量维度是否为1024
 								                    if len(q_1024_vec) != 1024:
 								                        error_msg = f"[Parser-ERROR] Embedding向量维度不是1024，实际维度: {len(q_1024_vec)}, 建议使用bge-m3模型"
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                        logger.error(error_msg)
-												fix(knowledgebases): 修复解析表格类型内容块时，内容为空造成的异常问题

											
										
										
											2025-06-06 18:27:12 +08:00
+								                        update_progress(-5, error_msg)
-												feat：知识库精细化管理 (#96)

* feat(知识库管理): 新增知识库创建人选择功能 (#96)

* "feat(知识库管理): 新增知识库权限修改功能并扩展操作列宽度 (#97)"

* feat(文档解析): 添加embedding向量维度校验，确保维度为1024并提示使用bge-m3模型
											
										
										
											2025-05-15 16:01:39 +08:00
+								                        raise ValueError(error_msg)
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                except Exception as e:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.error(f"[Parser-ERROR] 获取embedding失败: {e}")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								                    raise Exception(f"[Parser-ERROR] 获取embedding失败: {e}")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                chunk_id = generate_uuid()
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                try:
 								                    # 准备ES文档
 								                    current_time_es = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
 								                    current_timestamp_es = datetime.now().timestamp()
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								                    # 转换坐标格式
 								                    x1, y1, x2, y2 = bbox
 								                    bbox_reordered = [x1, x2, y1, y2]
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                    es_doc = {
 								                        "doc_id": doc_id,
 								                        "kb_id": kb_id,
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                        "docnm_kwd": doc_info["name"],
-												refactor(tokenizer): 实现解析分词，和原版分词同步

- 新增 RagTokenizer 类，实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作，提高处理效率和准确性
- 移除知识图谱相关无用代码，简化文档结构
- 添加 tokenizer 依赖到 requirements.txt

											
										
										
											2025-06-01 20:46:29 +08:00
+								                        "title_tks": tokenize_text(doc_info["name"]),
 								                        "title_sm_tks": tokenize_text(doc_info["name"]),
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                        "content_with_weight": content,
-												refactor(tokenizer): 实现解析分词，和原版分词同步

- 新增 RagTokenizer 类，实现中英文混合文本的分词功能
- 优化文档解析过程中的分词操作，提高处理效率和准确性
- 移除知识图谱相关无用代码，简化文档结构
- 添加 tokenizer 依赖到 requirements.txt

											
										
										
											2025-06-01 20:46:29 +08:00
+								                        "content_ltks": tokenize_text(content),
 								                        "content_sm_ltks": tokenize_text(content),
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								                        "page_num_int": [page_idx + 1],
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                        "position_int": [[page_idx + 1] + bbox_reordered],  # 格式: [[page, x1, x2, y1, y2]]
-												refactor: 优化代码结构和UI组件，移除前台和后台功能冲突的组件 (#34)

本次提交主要对代码进行了重构，移除了未使用的代码和注释，优化了部分UI组件的布局和样式。具体包括：
1. 移除了多个文件中的未使用代码和注释。
2. 调整了部分UI组件的布局，使其更加简洁和一致。
3. 更新了logo.svg文件，优化了图标的设计。
4. 修复了部分组件中的样式问题，提升了用户体验。
											
										
										
											2025-04-18 10:18:07 +08:00
+								                        "top_int": [1],
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                        "create_time": current_time_es,
 								                        "create_timestamp_flt": current_timestamp_es,
 								                        "img_id": "",
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                        "q_1024_vec": q_1024_vec,
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                    }
 								                    # 存储到Elasticsearch
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                    es_client.index(index=index_name, id=chunk_id, document=es_doc)  # 使用 document 参数
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								                    chunk_count += 1
 								                    chunk_ids_list.append(chunk_id)
 								                except Exception as e:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.error(f"[Parser-ERROR] 处理文本块 {chunk_idx} (page: {page_idx}, bbox: {bbox}) 失败: {e}")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								                    raise Exception(f"[Parser-ERROR] 处理文本块 {chunk_idx} (page: {page_idx}, bbox: {bbox}) 失败: {e}")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								            elif chunk_data["type"] == "image":
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                img_path_relative = chunk_data.get("img_path")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                if not img_path_relative or not temp_image_dir:
 								                    continue
 								                img_path_abs = os.path.join(temp_image_dir, os.path.basename(img_path_relative))
 								                if not os.path.exists(img_path_abs):
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.warning(f"[Parser-WARNING] 图片文件不存在: {img_path_abs}")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                    continue
 								                img_id = generate_uuid()
 								                img_ext = os.path.splitext(img_path_abs)[1]
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                img_key = f"images/{img_id}{img_ext}"  # MinIO中的对象名
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								                content_type = f"image/{img_ext[1:].lower()}"
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                if content_type == "image/jpg":
 								                    content_type = "image/jpeg"
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                try:
 								                    # 上传图片到MinIO (桶为kb_id)
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                    minio_client.fput_object(bucket_name=output_bucket, object_name=img_key, file_path=img_path_abs, content_type=content_type)
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    # 设置图片的公共访问权限
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								                    policy = {"Version": "2012-10-17", "Statement": [{"Effect": "Allow", "Principal": {"AWS": "*"}, "Action": ["s3:GetObject"], "Resource": [f"arn:aws:s3:::{kb_id}/images/*"]}]}
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    minio_client.set_bucket_policy(kb_id, json.dumps(policy))
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.info(f"成功上传图片: {img_key}")
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    minio_endpoint = MINIO_CONFIG["endpoint"]
 								                    use_ssl = MINIO_CONFIG.get("secure", False)
 								                    protocol = "https" if use_ssl else "http"
 								                    img_url = f"{protocol}://{minio_endpoint}/{output_bucket}/{img_key}"
 								                    # 记录图片信息，包括URL和位置信息
 								                    image_info = {
 								                        "url": img_url,
-												feat(用户管理): 添加用户列表排序功能并优化文档解析计数逻辑 (#85)


											
										
										
											2025-05-14 10:57:12 +08:00
+								                        "position": chunk_count,  # 使用当前处理的文本块数作为位置参考
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    }
 								                    image_info_list.append(image_info)
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.info(f"图片访问链接: {img_url}")
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
 								                except Exception as e:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                    logger.error(f"[Parser-ERROR] 上传图片 {img_path_abs} 失败: {e}")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								                    raise Exception(f"[Parser-ERROR] 上传图片 {img_path_abs} 失败: {e}")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat(pdf解析块坐标溯源): 对mineru的解析结果，增加pdf解析块坐标溯源功能 (#33)

- 新增 `get_text_from_block` 函数，用于从 `preproc_blocks` 中提取文本内容
- 在 `perform_parse` 中增加对 `middle_json_content` 的解析，提取块信息并匹配到文本块
- 更新 ES 文档结构，增加 `page_num_int` 和 `position_int` 字段，记录块在文档中的位置
											
										
										
											2025-04-17 20:32:48 +08:00
+								        # 打印匹配总结信息
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								        logger.info(f"[Parser-INFO] 共处理 {chunk_count} 个文本块。")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
 								        # 4. 更新文本块的图像信息
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								        if image_info_list and chunk_ids_list:
-												Update document_parser.py

删除没用到的数据库连接
											
										
										
											2025-07-07 21:12:49 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								            try:
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                # 为每个文本块找到最近的图片
 								                for i, chunk_id in enumerate(chunk_ids_list):
 								                    # 找到与当前文本块最近的图片
 								                    nearest_image = None
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    for img_info in image_info_list:
 								                        # 计算文本块与图片的"距离"
 								                        distance = abs(i - img_info["position"])  # 使用位置差作为距离度量
-												refactor(api): 重构聊天模块中图片插入逻辑，使其能够插入到引用块中间，并优化es图片读取逻辑路径

- 移除了多轮对话优化和推理相关代码
- 新增图片 Markdown 插入逻辑，支持从 MinIO 中获取图片
- 优化了引用文献的处理流程
- 简化了错误提示信息
- 添加了时间信息统计

											
										
										
											2025-06-07 13:00:07 +08:00
+								                        # 如果文本块与图片的距离间隔小于5个块,则认为块与图片是相关的
 								                        if distance < 5:
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                            nearest_image = img_info
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                    # 如果找到了最近的图片，则更新文本块的img_id
 								                    if nearest_image:
-												fix: 移除文档时删除es中的记录，修复移除文档后知识残留的问题

											
										
										
											2025-06-13 00:22:46 +08:00
+								                        # 存储相对路径部分
-												refactor(api): 重构聊天模块中图片插入逻辑，使其能够插入到引用块中间，并优化es图片读取逻辑路径

- 移除了多轮对话优化和推理相关代码
- 新增图片 Markdown 插入逻辑，支持从 MinIO 中获取图片
- 优化了引用文献的处理流程
- 简化了错误提示信息
- 添加了时间信息统计

											
										
										
											2025-06-07 13:00:07 +08:00
+								                        parsed_url = urlparse(nearest_image["url"])
 								                        relative_path = parsed_url.path.lstrip("/")  # 去掉开头的斜杠
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                        # 更新ES中的文档
-												refactor(api): 重构聊天模块中图片插入逻辑，使其能够插入到引用块中间，并优化es图片读取逻辑路径

- 移除了多轮对话优化和推理相关代码
- 新增图片 Markdown 插入逻辑，支持从 MinIO 中获取图片
- 优化了引用文献的处理流程
- 简化了错误提示信息
- 添加了时间信息统计

											
										
										
											2025-06-07 13:00:07 +08:00
+								                        direct_update = {"doc": {"img_id": relative_path}}
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								                        es_client.update(index=index_name, id=chunk_id, body=direct_update, refresh=True)
 								                        index_name = f"ragflow_{tenant_id}"
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                        logger.info(f"[Parser-INFO] 更新文本块 {chunk_id} 的图片关联: {relative_path}")
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
+								            except Exception as e:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								                logger.error(f"[Parser-ERROR] 更新文本块图片关联失败: {e}")
-												feat(文档解析): 拓展支持文件解析类型：excel、jpg、png、txt、md (#94)


											
										
										
											2025-05-14 23:01:09 +08:00
+								                raise Exception(f"[Parser-ERROR] 更新文本块图片关联失败: {e}")
-												Update document_parser.py

删除没用到的数据库连接
											
										
										
											2025-07-07 21:12:49 +08:00
-												feat: 添加系统Embedding配置功能并优化文档解析 (#35)

在知识库模块中新增了获取和设置系统Embedding配置的API接口，支持动态配置Embedding模型的基础URL、模型名称和API Key。同时，优化了文档解析逻辑，使用系统配置的Embedding模型生成文本块的向量，并将图片与文本块关联存储。
											
										
										
											2025-04-18 22:34:25 +08:00
 								        # 5. 更新最终状态
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								        process_duration = time.time() - start_time
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								        _update_document_progress(doc_id, progress=1.0, message="解析完成", status="1", run="3", chunk_count=chunk_count, process_duration=process_duration)
 								        _update_kb_chunk_count(kb_id, chunk_count)  # 更新知识库总块数
 								        _create_task_record(doc_id, chunk_ids_list)  # 创建task记录
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								        update_progress(1.0, "解析完成")
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								        logger.info(f"[Parser-INFO] 解析完成，文档ID: {doc_id}, 耗时: {process_duration:.2f}s, 块数: {chunk_count}")
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
 								        return {"success": True, "chunk_count": chunk_count}
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								    except Exception as e:
 								        process_duration = time.time() - start_time
 								        # error_message = f"解析失败: {str(e)}"
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								        logger.error(f"[Parser-ERROR] 文档 {doc_id} 解析失败: {e}")
-												fix(document_parser): 修复解析块回溯错位问题 (#51)


											
										
										
											2025-04-25 15:08:18 +08:00
+								        error_message = f"解析失败: {e}"
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								        # 更新文档状态为失败
-												fix:修复图像文本块关联异常问题 (#78)

添加processed_text_chunks += 1
											
										
										
											2025-05-11 21:28:39 +08:00
+								        _update_document_progress(doc_id, status="1", run="0", message=error_message, process_duration=process_duration)  # status=1表示完成，run=0表示失败
-												feat(解析文件类型增加): 解析文件增加对word和ppt的支持。 (#32)

增加对word和ppt的支持，需要安装LibreOffice。同时，将文档解析逻辑从 `KnowledgebaseService` 中提取到独立的 `document_parser.py` 模块，以提高代码的可维护性和复用性。同时优化了文件上传和临时文件处理的逻辑，确保资源正确释放。
											
										
										
											2025-04-17 16:31:20 +08:00
+								        return {"success": False, "error": error_message}
 								    finally:
 								        # 清理临时文件
 								        try:
 								            if temp_pdf_path and os.path.exists(temp_pdf_path):
 								                os.remove(temp_pdf_path)
 								            if temp_image_dir and os.path.exists(temp_image_dir):
 								                shutil.rmtree(temp_image_dir, ignore_errors=True)
 								        except Exception as clean_e:
-												refactor(management): 后台解析时，添加日志记录

- 在管理端应用中添加日志记录功能，用于记录解析过程中的信息和错误
- 优化代码格式和结构，提高可读性和可维护性
- 在.docker-compose.yml中添加日志目录挂载
- 清理无用的环境变量加载代码

											
										
										
											2025-06-10 12:29:26 +08:00
+								            logger.error(f"[Parser-WARNING] 清理临时文件失败: {clean_e}")