- 新增 RagTokenizer 类,实现中英文混合文本的分词功能 - 优化文档解析过程中的分词操作,提高处理效率和准确性 - 移除知识图谱相关无用代码,简化文档结构 - 添加 tokenizer 依赖到 requirements.txt |
||
---|---|---|
.. | ||
huqie.txt | ||
ner.json | ||
synonym.json |
- 新增 RagTokenizer 类,实现中英文混合文本的分词功能 - 优化文档解析过程中的分词操作,提高处理效率和准确性 - 移除知识图谱相关无用代码,简化文档结构 - 添加 tokenizer 依赖到 requirements.txt |
||
---|---|---|
.. | ||
huqie.txt | ||
ner.json | ||
synonym.json |