add context clip policy

Merge branch 'master' into frontier
2025-12-06 06:26:47 +00:00 · 2025-06-03 00:51:18 +08:00 · 2025-05-06 22:18:48 +08:00 · 2025-04-15 01:30:40 +08:00 · 2025-03-10 23:41:59 +08:00 · 2025-03-09 00:04:52 +08:00
--- a/27
+++ b/27
@@ -3,36 +3,39 @@
 # - 如何构建: 先修改 `config.py`， 然后 `docker build -t gpt-academic . `
 # - 如何运行(Linux下): `docker run --rm -it --net=host gpt-academic `
 # - 如何运行(其他操作系统，选择任意一个固定端口50923): `docker run --rm -it -e WEB_PORT=50923 -p 50923:50923 gpt-academic `
+FROM python:3.11

-FROM ghcr.io/astral-sh/uv:python3.12-bookworm

 # 非必要步骤，更换pip源 （以下三行，可以删除）
 RUN echo '[global]' > /etc/pip.conf && \
    echo 'index-url = https://mirrors.aliyun.com/pypi/simple/' >> /etc/pip.conf && \
    echo 'trusted-host = mirrors.aliyun.com' >> /etc/pip.conf

-# 语音输出功能（以下1,2行更换阿里源，第3,4行安装ffmpeg，都可以删除） 
-RUN sed -i 's/deb.debian.org/mirrors.aliyun.com/g' /etc/apt/sources.list.d/debian.sources && \
-    sed -i 's/security.debian.org/mirrors.aliyun.com/g' /etc/apt/sources.list.d/debian.sources && \
-    apt-get update
+
+# 语音输出功能（以下两行，第一行更换阿里源，第二行安装ffmpeg，都可以删除）
+RUN UBUNTU_VERSION=$(awk -F= '/^VERSION_CODENAME=/{print $2}' /etc/os-release); echo "deb https://mirrors.aliyun.com/debian/ $UBUNTU_VERSION main non-free contrib" > /etc/apt/sources.list; apt-get update
 RUN apt-get install ffmpeg -y
 RUN apt-get clean

+
 # 进入工作路径（必要）
 WORKDIR /gpt

+
 # 安装大部分依赖，利用Docker缓存加速以后的构建 （以下两行，可以删除）
 COPY requirements.txt ./
-RUN uv venv --python=3.12 && uv pip install --verbose -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
-ENV PATH="/gpt/.venv/bin:$PATH"
-RUN python -c 'import loguru'
+RUN pip3 install -r requirements.txt
+

 # 装载项目文件，安装剩余依赖（必要）
 COPY . .
-RUN uv venv --python=3.12 && uv pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
+RUN pip3 install -r requirements.txt
+
+
+# 非必要步骤，用于预热模块（可以删除）
+RUN python3  -c 'from check_proxy import warm_up_modules; warm_up_modules()'
+RUN python3 -m pip cache purge

-# # 非必要步骤，用于预热模块（可以删除）
-RUN python -c 'from check_proxy import warm_up_modules; warm_up_modules()'

 # 启动（必要）
-CMD ["bash", "-c", "python main.py"]
+CMD ["python3", "-u", "main.py"]
--- a/config.py
+++ b/config.py
@@ -8,9 +8,6 @@
 """

 # [step 1-1]>> ( 接入OpenAI模型家族 ) API_KEY = "sk-123456789xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx123456789"。极少数情况下，还需要填写组织（格式如org-123456789abcdefghijklmno的），请向下翻，找 API_ORG 设置项
-from pickle import TRUE
-
-
 API_KEY = "在此处填写APIKEY"    # 可同时填写多个API-KEY，用英文逗号分割，例如API_KEY = "sk-openaikey1,sk-openaikey2,fkxxxx-api2dkey3,azure-apikey4"

 # [step 1-2]>> ( 强烈推荐！接入通义家族 & 大模型服务平台百炼 ) 接入通义千问在线大模型，api-key获取地址 https://dashscope.console.aliyun.com/
@@ -19,36 +16,6 @@ DASHSCOPE_API_KEY = "" # 阿里灵积云API_KEY（用于接入qwen-max，dashsco
 # [step 1-3]>> ( 接入 deepseek-reasoner, 即 deepseek-r1 ) 深度求索(DeepSeek) API KEY，默认请求地址为"https://api.deepseek.com/v1/chat/completions"
 DEEPSEEK_API_KEY = ""

-# [step 1-4]>> ( 接入中转渠道 ) 中转渠道配置，支持采用OpenAI接口模式的中转渠道商
-ZHONGZHUAN_ENABLE =  TRUE  # 是否启用中转渠道，默认关闭
-ZHONGZHUAN_ENDPOINT = "https://test.com/v1/chat/completions"  # 中转渠道的完整API端点
-ZHONGZHUAN_API_KEY = "sk-xxxxxxxxxxxxxxx"  # 中转渠道的API KEY，如果为空则使用API_KEY
-ZHONGZHUAN_MODELS = [
-    # 中转渠道支持的模型列表，使用原始模型名称
-    "o3-mini-all",
-    "gpt-4.1",
-    "gpt-4o",
-    "gpt-4o-mini", 
-    "claude-sonnet-4-20250514-thinking",
-    "claude-sonnet-4-20250514",
-    "gemini-2.5-pro-preview-03-25",
-    # 可以添加更多模型...
-]
-# 配置说明：
-# 1. 将ZHONGZHUAN_ENABLE设置为True启用中转渠道
-# 2. 将ZHONGZHUAN_ENDPOINT设置为你的中转渠道商提供的完整API端点（包含/chat/completions）
-# 3. 将ZHONGZHUAN_API_KEY设置为你的中转渠道商提供的API KEY（可选）
-# 4. 在ZHONGZHUAN_MODELS中配置你想要使用的模型，使用原始模型名称
-# 5. 系统将自动把ZHONGZHUAN_MODELS中的模型添加到AVAIL_LLM_MODELS中，无需重复配置
-# 6. 对于同时在两个列表中的模型，将自动使用中转渠道访问
-# 
-# 示例配置：
-# ZHONGZHUAN_ENABLE = True
-# ZHONGZHUAN_ENDPOINT = "https://api.your-provider.com/v1/chat/completions"
-# ZHONGZHUAN_API_KEY = "your-api-key-here"
-# ZHONGZHUAN_MODELS = ["o3-mini-all", "gpt-4.1", "claude-sonnet-4-20250514"]
-# 然后可以直接设置LLM_MODEL = "o3-mini-all"（将通过中转渠道访问）
-
 # [step 2]>> 改为True应用代理。如果使用本地或无地域限制的大模型时，此处不修改；如果直接在海外服务器部署，此处不修改
 USE_PROXY = False
 if USE_PROXY:
@@ -82,14 +49,6 @@ AVAIL_LLM_MODELS = ["qwen-max", "o1-mini", "o1-mini-2024-09-12", "o1", "o1-2024-
                    "dashscope-qwen3-14b", "dashscope-qwen3-235b-a22b", "dashscope-qwen3-32b",
                    ]

-# 自动将中转渠道模型添加到可用模型列表中，避免用户重复配置
-# 对于同时在AVAIL_LLM_MODELS和ZHONGZHUAN_MODELS中的模型，将自动使用中转渠道
-if ZHONGZHUAN_ENABLE and ZHONGZHUAN_MODELS:
-    for model in ZHONGZHUAN_MODELS:
-        if model not in AVAIL_LLM_MODELS:
-            AVAIL_LLM_MODELS.append(model)
-    print(f"[中转渠道] 已启用，共{len(ZHONGZHUAN_MODELS)}个模型将通过中转渠道访问: {', '.join(ZHONGZHUAN_MODELS)}")
-
 EMBEDDING_MODEL = "text-embedding-3-small"

 # --- --- --- ---
@@ -199,7 +158,7 @@ MAX_RETRY = 2
 DEFAULT_FN_GROUPS = ['对话', '编程', '学术', '智能体']


-# 定义界面上"询问多个GPT模型"插件应该使用哪些模型，请从AVAIL_LLM_MODELS中选择，并在不同模型之间用`&`间隔，例如"gpt-3.5-turbo&chatglm3&azure-gpt-4"
+# 定义界面上“询问多个GPT模型”插件应该使用哪些模型，请从AVAIL_LLM_MODELS中选择，并在不同模型之间用`&`间隔，例如"gpt-3.5-turbo&chatglm3&azure-gpt-4"
 MULTI_QUERY_LLM_MODELS = "gpt-3.5-turbo&chatglm3"


@@ -402,7 +361,7 @@ AUTO_CONTEXT_CLIP_ENABLE = False
 AUTO_CONTEXT_CLIP_TRIGGER_TOKEN_LEN = 30*1000
 # 无条件丢弃x以上的轮数
 AUTO_CONTEXT_MAX_ROUND = 64
-# 在裁剪上下文时，倒数第x次对话能"最多"保留的上下文token的比例占 AUTO_CONTEXT_CLIP_TRIGGER_TOKEN_LEN 的多少
+# 在裁剪上下文时，倒数第x次对话能“最多”保留的上下文token的比例占 AUTO_CONTEXT_CLIP_TRIGGER_TOKEN_LEN 的多少
 AUTO_CONTEXT_MAX_CLIP_RATIO = [0.80, 0.60, 0.45, 0.25, 0.20, 0.18, 0.16, 0.14, 0.12, 0.10, 0.08, 0.07, 0.06, 0.05, 0.04, 0.03, 0.02, 0.01]


@@ -510,11 +469,4 @@ AUTO_CONTEXT_MAX_CLIP_RATIO = [0.80, 0.60, 0.45, 0.25, 0.20, 0.18, 0.16, 0.14, 0
    └── MATHPIX_APPKEY


-"zhongzhuan-..." 中转渠道模型配置
-    ├── ZHONGZHUAN_ENABLE
-    ├── ZHONGZHUAN_ENDPOINT
-    ├── ZHONGZHUAN_API_KEY
-    └── ZHONGZHUAN_MODELS
-
-
 """
--- a/crazy_functions/Conversation_To_File.py
+++ b/crazy_functions/Conversation_To_File.py
@@ -1,11 +1,10 @@
-import re
-from toolbox import CatchException, update_ui, promote_file_to_downloadzone, get_log_folder, get_user, update_ui_latest_msg
+from toolbox import CatchException, update_ui, promote_file_to_downloadzone, get_log_folder, get_user
 from crazy_functions.plugin_template.plugin_class_template import GptAcademicPluginTemplate, ArgProperty
-from loguru import logger
+import re

 f_prefix = 'GPT-Academic对话存档'

-def write_chat_to_file_legacy(chatbot, history=None, file_name=None):
+def write_chat_to_file(chatbot, history=None, file_name=None):
    """
    将对话记录history以Markdown格式写入文件中。如果没有指定文件名，则使用当前时间生成文件名。
    """
@@ -13,9 +12,6 @@ def write_chat_to_file_legacy(chatbot, history=None, file_name=None):
    import time
    from themes.theme import advanced_css

-    if (file_name is not None) and (file_name != "") and (not file_name.endswith('.html')): file_name += '.html'
-    else: file_name = None
-
    if file_name is None:
        file_name = f_prefix + time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime()) + '.html'
    fp = os.path.join(get_log_folder(get_user(chatbot), plugin_name='chat_history'), file_name)
@@ -72,147 +68,6 @@ def write_chat_to_file_legacy(chatbot, history=None, file_name=None):
    promote_file_to_downloadzone(fp, rename_file=file_name, chatbot=chatbot)
    return '对话历史写入：' + fp

-def write_chat_to_file(chatbot, history=None, file_name=None):
-    """
-    将对话记录history以多种格式（HTML、Word、Markdown）写入文件中。如果没有指定文件名，则使用当前时间生成文件名。
-    
-    Args:
-        chatbot: 聊天机器人对象，包含对话内容
-        history: 对话历史记录
-        file_name: 指定的文件名，如果为None则使用时间戳
-        
-    Returns:
-        str: 提示信息，包含文件保存路径
-    """
-    import os
-    import time
-    import asyncio
-    import aiofiles
-    from toolbox import promote_file_to_downloadzone
-    from crazy_functions.doc_fns.conversation_doc.excel_doc import save_chat_tables
-    from crazy_functions.doc_fns.conversation_doc.html_doc import HtmlFormatter
-    from crazy_functions.doc_fns.conversation_doc.markdown_doc import MarkdownFormatter
-    from crazy_functions.doc_fns.conversation_doc.word_doc import WordFormatter
-    from crazy_functions.doc_fns.conversation_doc.txt_doc import TxtFormatter
-    from crazy_functions.doc_fns.conversation_doc.word2pdf import WordToPdfConverter
-
-    async def save_html():
-        try:
-            html_formatter = HtmlFormatter(chatbot, history)
-            html_content = html_formatter.create_document()
-            html_file = os.path.join(save_dir, base_name + '.html')
-            async with aiofiles.open(html_file, 'w', encoding='utf8') as f:
-                await f.write(html_content)
-            return html_file
-        except Exception as e:
-            print(f"保存HTML格式失败: {str(e)}")
-            return None
-
-    async def save_word():
-        try:
-            word_formatter = WordFormatter()
-            doc = word_formatter.create_document(history)
-            docx_file = os.path.join(save_dir, base_name + '.docx')
-            # 由于python-docx不支持异步，使用线程池执行
-            loop = asyncio.get_event_loop()
-            await loop.run_in_executor(None, doc.save, docx_file)
-            return docx_file
-        except Exception as e:
-            print(f"保存Word格式失败: {str(e)}")
-            return None
-    async def save_pdf(docx_file):
-        try:
-            if docx_file:
-                # 获取文件名和保存路径
-                pdf_file = os.path.join(save_dir, base_name + '.pdf')
-                
-                # 在线程池中执行转换
-                loop = asyncio.get_event_loop()
-                pdf_file = await loop.run_in_executor(
-                    None, 
-                    WordToPdfConverter.convert_to_pdf,
-                    docx_file
-                    # save_dir
-                )
-                
-                return pdf_file
-                
-        except Exception as e:
-            print(f"保存PDF格式失败: {str(e)}")
-            return None
-
-    async def save_markdown():
-        try:
-            md_formatter = MarkdownFormatter()
-            md_content = md_formatter.create_document(history)
-            md_file = os.path.join(save_dir, base_name + '.md')
-            async with aiofiles.open(md_file, 'w', encoding='utf8') as f:
-                await f.write(md_content)
-            return md_file
-        except Exception as e:
-            print(f"保存Markdown格式失败: {str(e)}")
-            return None
-
-    async def save_txt():
-        try:
-            txt_formatter = TxtFormatter()
-            txt_content = txt_formatter.create_document(history)
-            txt_file = os.path.join(save_dir, base_name + '.txt')
-            async with aiofiles.open(txt_file, 'w', encoding='utf8') as f:
-                await f.write(txt_content)
-            return txt_file
-        except Exception as e:
-            print(f"保存TXT格式失败: {str(e)}")
-            return None
-
-    async def main():
-        # 并发执行所有保存任务
-        html_task = asyncio.create_task(save_html())
-        word_task = asyncio.create_task(save_word())
-        md_task = asyncio.create_task(save_markdown())
-        txt_task = asyncio.create_task(save_txt())
-        
-        # 等待所有任务完成
-        html_file = await html_task
-        docx_file = await word_task
-        md_file = await md_task
-        txt_file = await txt_task
-        
-        # PDF转换需要等待word文件生成完成
-        pdf_file = await save_pdf(docx_file)
-        # 收集所有成功生成的文件
-        result_files = [f for f in [html_file, docx_file, md_file, txt_file, pdf_file] if f]
-        
-        # 保存Excel表格
-        excel_files = save_chat_tables(history, save_dir, base_name)
-        result_files.extend(excel_files)
-        
-        return result_files
-
-    # 生成时间戳
-    timestamp = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())
-    
-    # 获取保存目录
-    save_dir = get_log_folder(get_user(chatbot), plugin_name='chat_history')
-    
-    # 处理文件名
-    base_name = file_name if file_name else f"聊天记录_{timestamp}"
-    
-    # 运行异步任务
-    result_files = asyncio.run(main())
-    
-    # 将生成的文件添加到下载区
-    for file in result_files:
-        promote_file_to_downloadzone(file, rename_file=os.path.basename(file), chatbot=chatbot)
-    
-    # 如果没有成功保存任何文件，返回错误信息
-    if not result_files:
-        return "保存对话记录失败，请检查错误日志"
-    
-    ext_list = [os.path.splitext(f)[1] for f in result_files]
-    # 返回成功信息和文件路径
-    return f"对话历史已保存至以下格式文件：" + "、".join(ext_list)
-
 def gen_file_preview(file_name):
    try:
        with open(file_name, 'r', encoding='utf8') as f:
@@ -264,21 +119,12 @@ def 对话历史存档(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_
    user_request    当前用户的请求信息（IP地址等）
    """
    file_name = plugin_kwargs.get("file_name", None)
+    if (file_name is not None) and (file_name != "") and (not file_name.endswith('.html')): file_name += '.html'
+    else: file_name = None
+
+    chatbot.append((None, f"[Local Message] {write_chat_to_file(chatbot, history, file_name)}，您可以调用下拉菜单中的“载入对话历史存档”还原当下的对话。"))
+    yield from update_ui(chatbot=chatbot, history=history) # 刷新界面 # 由于请求gpt需要一段时间，我们先及时地做一次界面更新

-    chatbot.append((None, f"[Local Message] {write_chat_to_file_legacy(chatbot, history, file_name)}，您可以调用下拉菜单中的“载入对话历史存档”还原当下的对话。"))
-    try:
-        chatbot.append((None, f"[Local Message] 正在尝试生成pdf以及word格式的对话存档，请稍等..."))
-        yield from update_ui(chatbot=chatbot, history=history) # 刷新界面 # 由于请求需要一段时间，我们先及时地做一次界面更新
-        lastmsg = f"[Local Message] {write_chat_to_file(chatbot, history, file_name)}。" \
-              f"您可以调用下拉菜单中的“载入对话历史会话”还原当下的对话，请注意，目前只支持html格式载入历史。" \
-              f"当模型回答中存在表格，将提取表格内容存储为Excel的xlsx格式，如果你提供一些数据,然后输入指令要求模型帮你整理为表格" \
-              f"（如“请帮我将下面的数据整理为表格：”），再利用此插件就可以获取到Excel表格。"
-        yield from update_ui_latest_msg(lastmsg, chatbot, history) # 刷新界面 # 由于请求需要一段时间，我们先及时地做一次界面更新
-    except Exception as e:
-        logger.exception(f"已完成对话存档（pdf和word格式的对话存档生成未成功）。{str(e)}")
-        lastmsg = "已完成对话存档（pdf和word格式的对话存档生成未成功）。"
-        yield from update_ui_latest_msg(lastmsg, chatbot, history) # 刷新界面 # 由于请求需要一段时间，我们先及时地做一次界面更新
-    return

 class Conversation_To_File_Wrap(GptAcademicPluginTemplate):
    def __init__(self):
@@ -326,7 +172,7 @@ def 载入对话历史存档(txt, llm_kwargs, plugin_kwargs, chatbot, history, s
    user_request    当前用户的请求信息（IP地址等）
    """
    from crazy_functions.crazy_utils import get_files_from_everything
-    success, file_manifest, _ = get_files_from_everything(txt, type='.html')
+    success, file_manifest, _ = get_files_from_everything(txt, type='.html',chatbot=chatbot)

    if not success:
        if txt == "": txt = '空空如也的输入栏'
--- a/crazy_functions/Latex_Project_Polish.py
+++ b/crazy_functions/Latex_Project_Polish.py
@@ -1,3 +1,4 @@
+from shared_utils.fastapi_server import validate_path_safety
 from toolbox import update_ui, trimmed_format_exc, promote_file_to_downloadzone, get_log_folder
 from toolbox import CatchException, report_exception, write_history_to_file, zip_folder
 from loguru import logger
@@ -155,6 +156,7 @@ def Latex英文润色(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_p
    import glob, os
    if os.path.exists(txt):
        project_folder = txt
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "": txt = '空空如也的输入栏'
        report_exception(chatbot, history, a = f"解析项目: {txt}", b = f"找不到本地项目或无权访问: {txt}")
@@ -193,6 +195,7 @@ def Latex中文润色(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_p
    import glob, os
    if os.path.exists(txt):
        project_folder = txt
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "": txt = '空空如也的输入栏'
        report_exception(chatbot, history, a = f"解析项目: {txt}", b = f"找不到本地项目或无权访问: {txt}")
@@ -229,6 +232,7 @@ def Latex英文纠错(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_p
    import glob, os
    if os.path.exists(txt):
        project_folder = txt
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "": txt = '空空如也的输入栏'
        report_exception(chatbot, history, a = f"解析项目: {txt}", b = f"找不到本地项目或无权访问: {txt}")
--- a/crazy_functions/Markdown_Translate.py
+++ b/crazy_functions/Markdown_Translate.py
@@ -1,5 +1,6 @@
 import glob, shutil, os, re
 from loguru import logger
+from shared_utils.fastapi_server import validate_path_safety
 from toolbox import update_ui, trimmed_format_exc, gen_time_str
 from toolbox import CatchException, report_exception, get_log_folder
 from toolbox import write_history_to_file, promote_file_to_downloadzone
@@ -118,7 +119,7 @@ def 多文件翻译(file_manifest, project_folder, llm_kwargs, plugin_kwargs, ch
    yield from update_ui(chatbot=chatbot, history=history) # 刷新界面


-def get_files_from_everything(txt, preference=''):
+def get_files_from_everything(txt, preference='', chatbox=None):
    if txt == "": return False, None, None
    success = True
    if txt.startswith('http'):
@@ -146,9 +147,11 @@ def get_files_from_everything(txt, preference=''):
        # 直接给定文件
        file_manifest = [txt]
        project_folder = os.path.dirname(txt)
+        validate_path_safety(project_folder, chatbot.get_user())
    elif os.path.exists(txt):
        # 本地路径，递归搜索
        project_folder = txt
+        validate_path_safety(project_folder, chatbot.get_user())
        file_manifest = [f for f in glob.glob(f'{project_folder}/**/*.md', recursive=True)]
    else:
        project_folder = None
@@ -177,7 +180,7 @@ def Markdown英译中(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_p
        return
    history = []    # 清空历史，以免输入溢出

-    success, file_manifest, project_folder = get_files_from_everything(txt, preference="Github")
+    success, file_manifest, project_folder = get_files_from_everything(txt, preference="Github", chatbox=chatbot)

    if not success:
        # 什么都没有
--- a/crazy_functions/PDF_Translate.py
+++ b/crazy_functions/PDF_Translate.py
@@ -26,7 +26,7 @@ def 批量翻译PDF文档(txt, llm_kwargs, plugin_kwargs, chatbot, history, syst

    # 清空历史，以免输入溢出
    history = []
-    success, file_manifest, project_folder = get_files_from_everything(txt, type='.pdf')
+    success, file_manifest, project_folder = get_files_from_everything(txt, type='.pdf', chatbot=chatbot)

    # 检测输入参数，如没有给定输入参数，直接退出
    if (not success) and txt == "": txt = '空空如也的输入栏。提示：请先上传文件（把PDF文件拖入对话）。'
--- a/crazy_functions/crazy_utils.py
+++ b/crazy_functions/crazy_utils.py
@@ -1,6 +1,7 @@
 import os
 import threading
 from loguru import logger
+from shared_utils.fastapi_server import validate_path_safety
 from shared_utils.char_visual_effect import scrolling_visual_effect
 from toolbox import update_ui, get_conf, trimmed_format_exc, get_max_token, Singleton

@@ -539,7 +540,7 @@ def read_and_clean_pdf_text(fp):
    return meta_txt, page_one_meta


-def get_files_from_everything(txt, type): # type='.md'
+def get_files_from_everything(txt, type, chatbot=None): # type='.md'
    """
    这个函数是用来获取指定目录下所有指定类型（如.md）的文件，并且对于网络上的文件，也可以获取它。
    下面是对每个参数和返回值的说明：
@@ -551,6 +552,7 @@ def get_files_from_everything(txt, type): # type='.md'
    - file_manifest: 文件路径列表，里面包含以指定类型为后缀名的所有文件的绝对路径。
    - project_folder: 字符串，表示文件所在的文件夹路径。如果是网络上的文件，就是临时文件夹的路径。
    该函数详细注释已添加，请确认是否满足您的需要。
+    - chatbot 带Cookies的Chatbot类，为实现更多强大的功能做基础
    """
    import glob, os

@@ -573,9 +575,13 @@ def get_files_from_everything(txt, type): # type='.md'
        # 直接给定文件
        file_manifest = [txt]
        project_folder = os.path.dirname(txt)
+        if chatbot is not None:
+            validate_path_safety(project_folder, chatbot.get_user())
    elif os.path.exists(txt):
        # 本地路径，递归搜索
        project_folder = txt
+        if chatbot is not None:
+            validate_path_safety(project_folder, chatbot.get_user())
        file_manifest = [f for f in glob.glob(f'{project_folder}/**/*'+type, recursive=True)]
        if len(file_manifest) == 0:
            success = False
--- a/crazy_functions/doc_fns/AI_review_doc.py
+++ b/crazy_functions/doc_fns/AI_review_doc.py
@@ -1,812 +0,0 @@
-import os
-import time
-from abc import ABC, abstractmethod
-from datetime import datetime
-from docx import Document
-from docx.enum.style import WD_STYLE_TYPE
-from docx.enum.text import WD_PARAGRAPH_ALIGNMENT, WD_LINE_SPACING
-from docx.oxml.ns import qn
-from docx.shared import  Inches, Cm
-from docx.shared import Pt, RGBColor, Inches
-from typing import Dict, List, Tuple
-import markdown
-from crazy_functions.doc_fns.conversation_doc.word_doc import convert_markdown_to_word
-
-
-
-class DocumentFormatter(ABC):
-    """文档格式化基类，定义文档格式化的基本接口"""
-
-    def __init__(self, final_summary: str, file_summaries_map: Dict, failed_files: List[Tuple]):
-        self.final_summary = final_summary
-        self.file_summaries_map = file_summaries_map
-        self.failed_files = failed_files
-
-    @abstractmethod
-    def format_failed_files(self) -> str:
-        """格式化失败文件列表"""
-        pass
-
-    @abstractmethod
-    def format_file_summaries(self) -> str:
-        """格式化文件总结内容"""
-        pass
-
-    @abstractmethod
-    def create_document(self) -> str:
-        """创建完整文档"""
-        pass
-
-
-class WordFormatter(DocumentFormatter):
-    """Word格式文档生成器 - 符合中国政府公文格式规范(GB/T 9704-2012)，并进行了优化"""
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.doc = Document()
-        self._setup_document()
-        self._create_styles()
-        # 初始化三级标题编号系统
-        self.numbers = {
-            1: 0,  # 一级标题编号
-            2: 0,  # 二级标题编号
-            3: 0  # 三级标题编号
-        }
-
-    def _setup_document(self):
-        """设置文档基本格式，包括页面设置和页眉"""
-        sections = self.doc.sections
-        for section in sections:
-            # 设置页面大小为A4
-            section.page_width = Cm(21)
-            section.page_height = Cm(29.7)
-            # 设置页边距
-            section.top_margin = Cm(3.7)  # 上边距37mm
-            section.bottom_margin = Cm(3.5)  # 下边距35mm
-            section.left_margin = Cm(2.8)  # 左边距28mm
-            section.right_margin = Cm(2.6)  # 右边距26mm
-            # 设置页眉页脚距离
-            section.header_distance = Cm(2.0)
-            section.footer_distance = Cm(2.0)
-
-            # 添加页眉
-            header = section.header
-            header_para = header.paragraphs[0]
-            header_para.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
-            header_run = header_para.add_run("该文档由GPT-academic生成")
-            header_run.font.name = '仿宋'
-            header_run._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-            header_run.font.size = Pt(9)
-
-    def _create_styles(self):
-        """创建文档样式"""
-        # 创建正文样式
-        style = self.doc.styles.add_style('Normal_Custom', WD_STYLE_TYPE.PARAGRAPH)
-        style.font.name = '仿宋'
-        style._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-        style.font.size = Pt(14)
-        style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-        style.paragraph_format.space_after = Pt(0)
-        style.paragraph_format.first_line_indent = Pt(28)
-
-        # 创建各级标题样式
-        self._create_heading_style('Title_Custom', '方正小标宋简体', 32, WD_PARAGRAPH_ALIGNMENT.CENTER)
-        self._create_heading_style('Heading1_Custom', '黑体', 22, WD_PARAGRAPH_ALIGNMENT.LEFT)
-        self._create_heading_style('Heading2_Custom', '黑体', 18, WD_PARAGRAPH_ALIGNMENT.LEFT)
-        self._create_heading_style('Heading3_Custom', '黑体', 16, WD_PARAGRAPH_ALIGNMENT.LEFT)
-
-    def _create_heading_style(self, style_name: str, font_name: str, font_size: int, alignment):
-        """创建标题样式"""
-        style = self.doc.styles.add_style(style_name, WD_STYLE_TYPE.PARAGRAPH)
-        style.font.name = font_name
-        style._element.rPr.rFonts.set(qn('w:eastAsia'), font_name)
-        style.font.size = Pt(font_size)
-        style.font.bold = True
-        style.paragraph_format.alignment = alignment
-        style.paragraph_format.space_before = Pt(12)
-        style.paragraph_format.space_after = Pt(12)
-        style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-        return style
-
-    def _get_heading_number(self, level: int) -> str:
-        """
-        生成标题编号
-
-        Args:
-            level: 标题级别 (0-3)
-
-        Returns:
-            str: 格式化的标题编号
-        """
-        if level == 0:  # 主标题不需要编号
-            return ""
-
-        self.numbers[level] += 1  # 增加当前级别的编号
-
-        # 重置下级标题编号
-        for i in range(level + 1, 4):
-            self.numbers[i] = 0
-
-        # 根据级别返回不同格式的编号
-        if level == 1:
-            return f"{self.numbers[1]}. "
-        elif level == 2:
-            return f"{self.numbers[1]}.{self.numbers[2]} "
-        elif level == 3:
-            return f"{self.numbers[1]}.{self.numbers[2]}.{self.numbers[3]} "
-        return ""
-
-    def _add_heading(self, text: str, level: int):
-        """
-        添加带编号的标题
-
-        Args:
-            text: 标题文本
-            level: 标题级别 (0-3)
-        """
-        style_map = {
-            0: 'Title_Custom',
-            1: 'Heading1_Custom',
-            2: 'Heading2_Custom',
-            3: 'Heading3_Custom'
-        }
-
-        number = self._get_heading_number(level)
-        paragraph = self.doc.add_paragraph(style=style_map[level])
-
-        if number:
-            number_run = paragraph.add_run(number)
-            font_size = 22 if level == 1 else (18 if level == 2 else 16)
-            self._get_run_style(number_run, '黑体', font_size, True)
-
-        text_run = paragraph.add_run(text)
-        font_size = 32 if level == 0 else (22 if level == 1 else (18 if level == 2 else 16))
-        self._get_run_style(text_run, '黑体', font_size, True)
-
-        # 主标题添加日期
-        if level == 0:
-            date_paragraph = self.doc.add_paragraph()
-            date_paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
-            date_run = date_paragraph.add_run(datetime.now().strftime('%Y年%m月%d日'))
-            self._get_run_style(date_run, '仿宋', 16, False)
-
-        return paragraph
-
-    def _get_run_style(self, run, font_name: str, font_size: int, bold: bool = False):
-        """设置文本运行对象的样式"""
-        run.font.name = font_name
-        run._element.rPr.rFonts.set(qn('w:eastAsia'), font_name)
-        run.font.size = Pt(font_size)
-        run.font.bold = bold
-
-    def format_failed_files(self) -> str:
-        """格式化失败文件列表"""
-        result = []
-        if not self.failed_files:
-            return "\n".join(result)
-
-        result.append("处理失败文件:")
-        for fp, reason in self.failed_files:
-            result.append(f"• {os.path.basename(fp)}: {reason}")
-
-        self._add_heading("处理失败文件", 1)
-        for fp, reason in self.failed_files:
-            self._add_content(f"• {os.path.basename(fp)}: {reason}", indent=False)
-        self.doc.add_paragraph()
-
-        return "\n".join(result)
-
-    def _add_content(self, text: str, indent: bool = True):
-        """添加正文内容，使用convert_markdown_to_word处理文本"""
-        # 使用convert_markdown_to_word处理markdown文本
-        processed_text = convert_markdown_to_word(text)
-        paragraph = self.doc.add_paragraph(processed_text, style='Normal_Custom')
-        if not indent:
-            paragraph.paragraph_format.first_line_indent = Pt(0)
-        return paragraph
-
-    def format_file_summaries(self) -> str:
-        """
-        格式化文件总结内容，确保正确的标题层级并处理markdown文本
-        """
-        result = []
-        # 首先对文件路径进行分组整理
-        file_groups = {}
-        for path in sorted(self.file_summaries_map.keys()):
-            dir_path = os.path.dirname(path)
-            if dir_path not in file_groups:
-                file_groups[dir_path] = []
-            file_groups[dir_path].append(path)
-
-        # 处理没有目录的文件
-        root_files = file_groups.get("", [])
-        if root_files:
-            for path in sorted(root_files):
-                file_name = os.path.basename(path)
-                result.append(f"\n📄 {file_name}")
-                result.append(self.file_summaries_map[path])
-                # 无目录的文件作为二级标题
-                self._add_heading(f"📄 {file_name}", 2)
-                # 使用convert_markdown_to_word处理文件内容
-                self._add_content(convert_markdown_to_word(self.file_summaries_map[path]))
-                self.doc.add_paragraph()
-
-        # 处理有目录的文件
-        for dir_path in sorted(file_groups.keys()):
-            if dir_path == "":  # 跳过已处理的根目录文件
-                continue
-
-            # 添加目录作为二级标题
-            result.append(f"\n📁 {dir_path}")
-            self._add_heading(f"📁 {dir_path}", 2)
-
-            # 该目录下的所有文件作为三级标题
-            for path in sorted(file_groups[dir_path]):
-                file_name = os.path.basename(path)
-                result.append(f"\n📄 {file_name}")
-                result.append(self.file_summaries_map[path])
-
-                # 添加文件名作为三级标题
-                self._add_heading(f"📄 {file_name}", 3)
-                # 使用convert_markdown_to_word处理文件内容
-                self._add_content(convert_markdown_to_word(self.file_summaries_map[path]))
-                self.doc.add_paragraph()
-
-        return "\n".join(result)
-
-
-    def create_document(self):
-        """创建完整Word文档并返回文档对象"""
-        # 重置所有编号
-        for level in self.numbers:
-            self.numbers[level] = 0
-
-        # 添加主标题
-        self._add_heading("文档总结报告", 0)
-        self.doc.add_paragraph()
-
-        # 添加总体摘要，使用convert_markdown_to_word处理
-        self._add_heading("总体摘要", 1)
-        self._add_content(convert_markdown_to_word(self.final_summary))
-        self.doc.add_paragraph()
-
-        # 添加失败文件列表（如果有）
-        if self.failed_files:
-            self.format_failed_files()
-
-        # 添加文件详细总结
-        self._add_heading("各文件详细总结", 1)
-        self.format_file_summaries()
-
-        return self.doc
-
-    def save_as_pdf(self, word_path, pdf_path=None):
-        """将生成的Word文档转换为PDF
-        
-        参数:
-            word_path: Word文档的路径
-            pdf_path: 可选，PDF文件的输出路径。如果未指定，将使用与Word文档相同的名称和位置
-            
-        返回:
-            生成的PDF文件路径，如果转换失败则返回None
-        """
-        from crazy_functions.doc_fns.conversation_doc.word2pdf import WordToPdfConverter
-        try:
-            pdf_path = WordToPdfConverter.convert_to_pdf(word_path, pdf_path)
-            return pdf_path
-        except Exception as e:
-            print(f"PDF转换失败: {str(e)}")
-            return None
-
-
-class MarkdownFormatter(DocumentFormatter):
-    """Markdown格式文档生成器"""
-
-    def format_failed_files(self) -> str:
-        if not self.failed_files:
-            return ""
-
-        formatted_text = ["\n## ⚠️ 处理失败的文件"]
-        for fp, reason in self.failed_files:
-            formatted_text.append(f"- {os.path.basename(fp)}: {reason}")
-        formatted_text.append("\n---")
-        return "\n".join(formatted_text)
-
-    def format_file_summaries(self) -> str:
-        formatted_text = []
-        sorted_paths = sorted(self.file_summaries_map.keys())
-        current_dir = ""
-
-        for path in sorted_paths:
-            dir_path = os.path.dirname(path)
-            if dir_path != current_dir:
-                if dir_path:
-                    formatted_text.append(f"\n## 📁 {dir_path}")
-                current_dir = dir_path
-
-            file_name = os.path.basename(path)
-            formatted_text.append(f"\n### 📄 {file_name}")
-            formatted_text.append(self.file_summaries_map[path])
-            formatted_text.append("\n---")
-
-        return "\n".join(formatted_text)
-
-    def create_document(self) -> str:
-        document = [
-            "# 📑 文档总结报告",
-            "\n## 总体摘要",
-            self.final_summary
-        ]
-
-        if self.failed_files:
-            document.append(self.format_failed_files())
-
-        document.extend([
-            "\n# 📚 各文件详细总结",
-            self.format_file_summaries()
-        ])
-
-        return "\n".join(document)
-
-
-
-class HtmlFormatter(DocumentFormatter):
-    """HTML格式文档生成器 - 优化版"""
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.md = markdown.Markdown(extensions=['extra','codehilite', 'tables','nl2br'])
-        self.css_styles = """
-        @keyframes fadeIn {
-            from { opacity: 0; transform: translateY(20px); }
-            to { opacity: 1; transform: translateY(0); }
-        }
-
-        @keyframes slideIn {
-            from { transform: translateX(-20px); opacity: 0; }
-            to { transform: translateX(0); opacity: 1; }
-        }
-
-        @keyframes pulse {
-            0% { transform: scale(1); }
-            50% { transform: scale(1.05); }
-            100% { transform: scale(1); }
-        }
-
-        :root {
-            /* Enhanced color palette */
-            --primary-color: #2563eb;
-            --primary-light: #eff6ff;
-            --secondary-color: #1e293b;
-            --background-color: #f8fafc;
-            --text-color: #334155;
-            --text-light: #64748b;
-            --border-color: #e2e8f0;
-            --error-color: #ef4444;
-            --error-light: #fef2f2;
-            --success-color: #22c55e;
-            --warning-color: #f59e0b;
-            --card-shadow: 0 4px 6px -1px rgb(0 0 0 / 0.1), 0 2px 4px -2px rgb(0 0 0 / 0.1);
-            --hover-shadow: 0 20px 25px -5px rgb(0 0 0 / 0.1), 0 8px 10px -6px rgb(0 0 0 / 0.1);
-            
-            /* Typography */
-            --heading-font: "Plus Jakarta Sans", system-ui, sans-serif;
-            --body-font: "Inter", system-ui, sans-serif;
-        }
-
-        body {
-            font-family: var(--body-font);
-            line-height: 1.8;
-            max-width: 1200px;
-            margin: 0 auto;
-            padding: 2rem;
-            color: var(--text-color);
-            background-color: var(--background-color);
-            font-size: 16px;
-            -webkit-font-smoothing: antialiased;
-        }
-
-        .container {
-            background: white;
-            padding: 3rem;
-            border-radius: 24px;
-            box-shadow: var(--card-shadow);
-            transition: all 0.4s cubic-bezier(0.4, 0, 0.2, 1);
-            animation: fadeIn 0.6s ease-out;
-            border: 1px solid var(--border-color);
-        }
-
-        .container:hover {
-            box-shadow: var(--hover-shadow);
-            transform: translateY(-2px);
-        }
-
-        h1, h2, h3 {
-            font-family: var(--heading-font);
-            font-weight: 600;
-        }
-
-        h1 {
-            color: var(--primary-color);
-            font-size: 2.8em;
-            text-align: center;
-            margin: 2rem 0 3rem;
-            padding-bottom: 1.5rem;
-            border-bottom: 3px solid var(--primary-color);
-            letter-spacing: -0.03em;
-            position: relative;
-            display: flex;
-            align-items: center;
-            justify-content: center;
-            gap: 1rem;
-        }
-
-        h1::after {
-            content: '';
-            position: absolute;
-            bottom: -3px;
-            left: 50%;
-            transform: translateX(-50%);
-            width: 120px;
-            height: 3px;
-            background: linear-gradient(90deg, var(--primary-color), var(--primary-light));
-            border-radius: 3px;
-            transition: width 0.3s ease;
-        }
-
-        h1:hover::after {
-            width: 180px;
-        }
-
-        h2 {
-            color: var(--secondary-color);
-            font-size: 1.9em;
-            margin: 2.5rem 0 1.5rem;
-            padding-left: 1.2rem;
-            border-left: 4px solid var(--primary-color);
-            letter-spacing: -0.02em;
-            display: flex;
-            align-items: center;
-            gap: 1rem;
-            transition: all 0.3s ease;
-        }
-
-        h2:hover {
-            color: var(--primary-color);
-            transform: translateX(5px);
-        }
-
-        h3 {
-            color: var(--text-color);
-            font-size: 1.5em;
-            margin: 2rem 0 1rem;
-            padding-bottom: 0.8rem;
-            border-bottom: 2px solid var(--border-color);
-            transition: all 0.3s ease;
-            display: flex;
-            align-items: center;
-            gap: 0.8rem;
-        }
-
-        h3:hover {
-            color: var(--primary-color);
-            border-bottom-color: var(--primary-color);
-        }
-
-        .summary {
-            background: var(--primary-light);
-            padding: 2.5rem;
-            border-radius: 16px;
-            margin: 2.5rem 0;
-            box-shadow: 0 4px 6px -1px rgba(37, 99, 235, 0.1);
-            position: relative;
-            overflow: hidden;
-            transition: transform 0.3s ease, box-shadow 0.3s ease;
-            animation: slideIn 0.5s ease-out;
-        }
-
-        .summary:hover {
-            transform: translateY(-3px);
-            box-shadow: 0 8px 12px -2px rgba(37, 99, 235, 0.15);
-        }
-
-        .summary::before {
-            content: '';
-            position: absolute;
-            top: 0;
-            left: 0;
-            width: 4px;
-            height: 100%;
-            background: linear-gradient(to bottom, var(--primary-color), rgba(37, 99, 235, 0.6));
-        }
-
-        .summary p {
-            margin: 1.2rem 0;
-            line-height: 1.9;
-            color: var(--text-color);
-            transition: color 0.3s ease;
-        }
-
-        .summary:hover p {
-            color: var(--secondary-color);
-        }
-
-        .details {
-            margin-top: 3.5rem;
-            padding-top: 2.5rem;
-            border-top: 2px dashed var(--border-color);
-            animation: fadeIn 0.8s ease-out;
-        }
-
-        .failed-files {
-            background: var(--error-light);
-            padding: 2rem;
-            border-radius: 16px;
-            margin: 3rem 0;
-            border-left: 4px solid var(--error-color);
-            position: relative;
-            transition: all 0.3s ease;
-            animation: slideIn 0.5s ease-out;
-        }
-
-        .failed-files:hover {
-            transform: translateX(5px);
-            box-shadow: 0 8px 15px -3px rgba(239, 68, 68, 0.1);
-        }
-
-        .failed-files h2 {
-            color: var(--error-color);
-            border-left: none;
-            padding-left: 0;
-        }
-
-        .failed-files ul {
-            margin: 1.8rem 0;
-            padding-left: 1.2rem;
-            list-style-type: none;
-        }
-
-        .failed-files li {
-            margin: 1.2rem 0;
-            padding: 1.2rem 1.8rem;
-            background: rgba(239, 68, 68, 0.08);
-            border-radius: 12px;
-            transition: all 0.3s cubic-bezier(0.4, 0, 0.2, 1);
-        }
-
-        .failed-files li:hover {
-            transform: translateX(8px);
-            background: rgba(239, 68, 68, 0.12);
-        }
-
-        .directory-section {
-            margin: 3.5rem 0;
-            padding: 2rem;
-            background: var(--background-color);
-            border-radius: 16px;
-            position: relative;
-            transition: all 0.3s ease;
-            animation: fadeIn 0.6s ease-out;
-        }
-
-        .directory-section:hover {
-            background: white;
-            box-shadow: var(--card-shadow);
-        }
-
-        .file-summary {
-            background: white;
-            padding: 2rem;
-            margin: 1.8rem 0;
-            border-radius: 16px;
-            box-shadow: var(--card-shadow);
-            border-left: 4px solid var(--border-color);
-            transition: all 0.4s cubic-bezier(0.4, 0, 0.2, 1);
-            position: relative;
-            overflow: hidden;
-        }
-
-        .file-summary:hover {
-            border-left-color: var(--primary-color);
-            transform: translateX(8px) translateY(-2px);
-            box-shadow: var(--hover-shadow);
-        }
-
-        .file-summary {
-            background: white;
-            padding: 2rem;
-            margin: 1.8rem 0;
-            border-radius: 16px;
-            box-shadow: var(--card-shadow);
-            border-left: 4px solid var(--border-color);
-            transition: all 0.4s cubic-bezier(0.4, 0, 0.2, 1);
-            position: relative;
-        }
-
-        .file-summary:hover {
-            border-left-color: var(--primary-color);
-            transform: translateX(8px) translateY(-2px);
-            box-shadow: var(--hover-shadow);
-        }
-
-        .icon {
-            display: inline-flex;
-            align-items: center;
-            justify-content: center;
-            width: 32px;
-            height: 32px;
-            border-radius: 8px;
-            background: var(--primary-light);
-            color: var(--primary-color);
-            font-size: 1.2em;
-            transition: all 0.3s ease;
-        }
-
-        .file-summary:hover .icon,
-        .directory-section:hover .icon {
-            transform: scale(1.1);
-            background: var(--primary-color);
-            color: white;
-        }
-
-        /* Smooth scrolling */
-        html {
-            scroll-behavior: smooth;
-        }
-
-        /* Selection style */
-        ::selection {
-            background: var(--primary-light);
-            color: var(--primary-color);
-        }
-
-        /* Print styles */
-        @media print {
-            body {
-                background: white;
-            }
-            .container {
-                box-shadow: none;
-                padding: 0;
-            }
-            .file-summary, .failed-files {
-                break-inside: avoid;
-                box-shadow: none;
-            }
-            .icon {
-                display: none;
-            }
-        }
-
-        /* Responsive design */
-        @media (max-width: 768px) {
-            body {
-                padding: 1rem;
-                font-size: 15px;
-            }
-            
-            .container {
-                padding: 1.5rem;
-            }
-
-            h1 {
-                font-size: 2.2em;
-                margin: 1.5rem 0 2rem;
-            }
-
-            h2 {
-                font-size: 1.7em;
-            }
-
-            h3 {
-                font-size: 1.4em;
-            }
-
-            .summary, .failed-files, .directory-section {
-                padding: 1.5rem;
-            }
-
-            .file-summary {
-                padding: 1.2rem;
-            }
-
-            .icon {
-                width: 28px;
-                height: 28px;
-            }
-        }
-
-        /* Dark mode support */
-        @media (prefers-color-scheme: dark) {
-            :root {
-                --primary-light: rgba(37, 99, 235, 0.15);
-                --background-color: #0f172a;
-                --text-color: #e2e8f0;
-                --text-light: #94a3b8;
-                --border-color: #1e293b;
-                --error-light: rgba(239, 68, 68, 0.15);
-            }
-
-            .container, .file-summary {
-                background: #1e293b;
-            }
-
-            .directory-section {
-                background: #0f172a;
-            }
-
-            .directory-section:hover {
-                background: #1e293b;
-            }
-        }
-        """
-
-    def format_failed_files(self) -> str:
-        if not self.failed_files:
-            return ""
-
-        failed_files_html = ['<div class="failed-files">']
-        failed_files_html.append('<h2><span class="icon">⚠️</span> 处理失败的文件</h2>')
-        failed_files_html.append("<ul>")
-        for fp, reason in self.failed_files:
-            failed_files_html.append(
-                f'<li><strong>📄 {os.path.basename(fp)}</strong><br><span style="color: var(--text-light)">{reason}</span></li>'
-            )
-        failed_files_html.append("</ul></div>")
-        return "\n".join(failed_files_html)
-
-    def format_file_summaries(self) -> str:
-        formatted_html = []
-        sorted_paths = sorted(self.file_summaries_map.keys())
-        current_dir = ""
-
-        for path in sorted_paths:
-            dir_path = os.path.dirname(path)
-            if dir_path != current_dir:
-                if dir_path:
-                    formatted_html.append('<div class="directory-section">')
-                    formatted_html.append(f'<h2><span class="icon">📁</span> {dir_path}</h2>')
-                    formatted_html.append('</div>')
-                current_dir = dir_path
-
-            file_name = os.path.basename(path)
-            formatted_html.append('<div class="file-summary">')
-            formatted_html.append(f'<h3><span class="icon">📄</span> {file_name}</h3>')
-            formatted_html.append(self.md.convert(self.file_summaries_map[path]))
-            formatted_html.append('</div>')
-
-        return "\n".join(formatted_html)
-
-    def create_document(self) -> str:
-        """生成HTML文档
-        Returns:
-            str: 完整的HTML文档字符串
-        """
-        return f"""
-        <!DOCTYPE html>
-        <html lang="zh-CN">
-        <head>
-            <meta charset="utf-8">
-            <meta name="viewport" content="width=device-width, initial-scale=1">
-            <title>文档总结报告</title>
-            <link href="https://cdnjs.cloudflare.com/ajax/libs/inter/3.19.3/inter.css" rel="stylesheet">
-            <link href="https://fonts.googleapis.com/css2?family=Plus+Jakarta+Sans:wght@400;600&display=swap" rel="stylesheet">
-            <style>{self.css_styles}</style>
-        </head>
-        <body>
-            <div class="container">
-                <h1><span class="icon">📑</span> 文档总结报告</h1>
-                <div class="summary">
-                    <h2><span class="icon">📋</span> 总体摘要</h2>
-                    <p>{self.md.convert(self.final_summary)}</p>
-                </div>
-                {self.format_failed_files()}
-                <div class="details">
-                    <h2><span class="icon">📚</span> 各文件详细总结</h2>
-                    {self.format_file_summaries()}
-                </div>
-            </div>
-
-        </body>
-        </html>
-        """
--- a/crazy_functions/doc_fns/init.py
+++ b/crazy_functions/doc_fns/init.py
--- a/crazy_functions/doc_fns/batch_file_query_doc.py
+++ b/crazy_functions/doc_fns/batch_file_query_doc.py
@@ -1,812 +0,0 @@
-import os
-import time
-from abc import ABC, abstractmethod
-from datetime import datetime
-from docx import Document
-from docx.enum.style import WD_STYLE_TYPE
-from docx.enum.text import WD_PARAGRAPH_ALIGNMENT, WD_LINE_SPACING
-from docx.oxml.ns import qn
-from docx.shared import  Inches, Cm
-from docx.shared import Pt, RGBColor, Inches
-from typing import Dict, List, Tuple
-import markdown
-from crazy_functions.doc_fns.conversation_doc.word_doc import  convert_markdown_to_word
-
-
-
-class DocumentFormatter(ABC):
-    """文档格式化基类，定义文档格式化的基本接口"""
-
-    def __init__(self, final_summary: str, file_summaries_map: Dict, failed_files: List[Tuple]):
-        self.final_summary = final_summary
-        self.file_summaries_map = file_summaries_map
-        self.failed_files = failed_files
-
-    @abstractmethod
-    def format_failed_files(self) -> str:
-        """格式化失败文件列表"""
-        pass
-
-    @abstractmethod
-    def format_file_summaries(self) -> str:
-        """格式化文件总结内容"""
-        pass
-
-    @abstractmethod
-    def create_document(self) -> str:
-        """创建完整文档"""
-        pass
-
-
-class WordFormatter(DocumentFormatter):
-    """Word格式文档生成器 - 符合中国政府公文格式规范(GB/T 9704-2012)，并进行了优化"""
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.doc = Document()
-        self._setup_document()
-        self._create_styles()
-        # 初始化三级标题编号系统
-        self.numbers = {
-            1: 0,  # 一级标题编号
-            2: 0,  # 二级标题编号
-            3: 0  # 三级标题编号
-        }
-
-    def _setup_document(self):
-        """设置文档基本格式，包括页面设置和页眉"""
-        sections = self.doc.sections
-        for section in sections:
-            # 设置页面大小为A4
-            section.page_width = Cm(21)
-            section.page_height = Cm(29.7)
-            # 设置页边距
-            section.top_margin = Cm(3.7)  # 上边距37mm
-            section.bottom_margin = Cm(3.5)  # 下边距35mm
-            section.left_margin = Cm(2.8)  # 左边距28mm
-            section.right_margin = Cm(2.6)  # 右边距26mm
-            # 设置页眉页脚距离
-            section.header_distance = Cm(2.0)
-            section.footer_distance = Cm(2.0)
-
-            # 添加页眉
-            header = section.header
-            header_para = header.paragraphs[0]
-            header_para.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
-            header_run = header_para.add_run("该文档由GPT-academic生成")
-            header_run.font.name = '仿宋'
-            header_run._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-            header_run.font.size = Pt(9)
-
-    def _create_styles(self):
-        """创建文档样式"""
-        # 创建正文样式
-        style = self.doc.styles.add_style('Normal_Custom', WD_STYLE_TYPE.PARAGRAPH)
-        style.font.name = '仿宋'
-        style._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-        style.font.size = Pt(14)
-        style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-        style.paragraph_format.space_after = Pt(0)
-        style.paragraph_format.first_line_indent = Pt(28)
-
-        # 创建各级标题样式
-        self._create_heading_style('Title_Custom', '方正小标宋简体', 32, WD_PARAGRAPH_ALIGNMENT.CENTER)
-        self._create_heading_style('Heading1_Custom', '黑体', 22, WD_PARAGRAPH_ALIGNMENT.LEFT)
-        self._create_heading_style('Heading2_Custom', '黑体', 18, WD_PARAGRAPH_ALIGNMENT.LEFT)
-        self._create_heading_style('Heading3_Custom', '黑体', 16, WD_PARAGRAPH_ALIGNMENT.LEFT)
-
-    def _create_heading_style(self, style_name: str, font_name: str, font_size: int, alignment):
-        """创建标题样式"""
-        style = self.doc.styles.add_style(style_name, WD_STYLE_TYPE.PARAGRAPH)
-        style.font.name = font_name
-        style._element.rPr.rFonts.set(qn('w:eastAsia'), font_name)
-        style.font.size = Pt(font_size)
-        style.font.bold = True
-        style.paragraph_format.alignment = alignment
-        style.paragraph_format.space_before = Pt(12)
-        style.paragraph_format.space_after = Pt(12)
-        style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-        return style
-
-    def _get_heading_number(self, level: int) -> str:
-        """
-        生成标题编号
-
-        Args:
-            level: 标题级别 (0-3)
-
-        Returns:
-            str: 格式化的标题编号
-        """
-        if level == 0:  # 主标题不需要编号
-            return ""
-
-        self.numbers[level] += 1  # 增加当前级别的编号
-
-        # 重置下级标题编号
-        for i in range(level + 1, 4):
-            self.numbers[i] = 0
-
-        # 根据级别返回不同格式的编号
-        if level == 1:
-            return f"{self.numbers[1]}. "
-        elif level == 2:
-            return f"{self.numbers[1]}.{self.numbers[2]} "
-        elif level == 3:
-            return f"{self.numbers[1]}.{self.numbers[2]}.{self.numbers[3]} "
-        return ""
-
-    def _add_heading(self, text: str, level: int):
-        """
-        添加带编号的标题
-
-        Args:
-            text: 标题文本
-            level: 标题级别 (0-3)
-        """
-        style_map = {
-            0: 'Title_Custom',
-            1: 'Heading1_Custom',
-            2: 'Heading2_Custom',
-            3: 'Heading3_Custom'
-        }
-
-        number = self._get_heading_number(level)
-        paragraph = self.doc.add_paragraph(style=style_map[level])
-
-        if number:
-            number_run = paragraph.add_run(number)
-            font_size = 22 if level == 1 else (18 if level == 2 else 16)
-            self._get_run_style(number_run, '黑体', font_size, True)
-
-        text_run = paragraph.add_run(text)
-        font_size = 32 if level == 0 else (22 if level == 1 else (18 if level == 2 else 16))
-        self._get_run_style(text_run, '黑体', font_size, True)
-
-        # 主标题添加日期
-        if level == 0:
-            date_paragraph = self.doc.add_paragraph()
-            date_paragraph.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
-            date_run = date_paragraph.add_run(datetime.now().strftime('%Y年%m月%d日'))
-            self._get_run_style(date_run, '仿宋', 16, False)
-
-        return paragraph
-
-    def _get_run_style(self, run, font_name: str, font_size: int, bold: bool = False):
-        """设置文本运行对象的样式"""
-        run.font.name = font_name
-        run._element.rPr.rFonts.set(qn('w:eastAsia'), font_name)
-        run.font.size = Pt(font_size)
-        run.font.bold = bold
-
-    def format_failed_files(self) -> str:
-        """格式化失败文件列表"""
-        result = []
-        if not self.failed_files:
-            return "\n".join(result)
-
-        result.append("处理失败文件:")
-        for fp, reason in self.failed_files:
-            result.append(f"• {os.path.basename(fp)}: {reason}")
-
-        self._add_heading("处理失败文件", 1)
-        for fp, reason in self.failed_files:
-            self._add_content(f"• {os.path.basename(fp)}: {reason}", indent=False)
-        self.doc.add_paragraph()
-
-        return "\n".join(result)
-
-    def _add_content(self, text: str, indent: bool = True):
-        """添加正文内容，使用convert_markdown_to_word处理文本"""
-        # 使用convert_markdown_to_word处理markdown文本
-        processed_text = convert_markdown_to_word(text)
-        paragraph = self.doc.add_paragraph(processed_text, style='Normal_Custom')
-        if not indent:
-            paragraph.paragraph_format.first_line_indent = Pt(0)
-        return paragraph
-
-    def format_file_summaries(self) -> str:
-        """
-        格式化文件总结内容，确保正确的标题层级并处理markdown文本
-        """
-        result = []
-        # 首先对文件路径进行分组整理
-        file_groups = {}
-        for path in sorted(self.file_summaries_map.keys()):
-            dir_path = os.path.dirname(path)
-            if dir_path not in file_groups:
-                file_groups[dir_path] = []
-            file_groups[dir_path].append(path)
-
-        # 处理没有目录的文件
-        root_files = file_groups.get("", [])
-        if root_files:
-            for path in sorted(root_files):
-                file_name = os.path.basename(path)
-                result.append(f"\n📄 {file_name}")
-                result.append(self.file_summaries_map[path])
-                # 无目录的文件作为二级标题
-                self._add_heading(f"📄 {file_name}", 2)
-                # 使用convert_markdown_to_word处理文件内容
-                self._add_content(convert_markdown_to_word(self.file_summaries_map[path]))
-                self.doc.add_paragraph()
-
-        # 处理有目录的文件
-        for dir_path in sorted(file_groups.keys()):
-            if dir_path == "":  # 跳过已处理的根目录文件
-                continue
-
-            # 添加目录作为二级标题
-            result.append(f"\n📁 {dir_path}")
-            self._add_heading(f"📁 {dir_path}", 2)
-
-            # 该目录下的所有文件作为三级标题
-            for path in sorted(file_groups[dir_path]):
-                file_name = os.path.basename(path)
-                result.append(f"\n📄 {file_name}")
-                result.append(self.file_summaries_map[path])
-
-                # 添加文件名作为三级标题
-                self._add_heading(f"📄 {file_name}", 3)
-                # 使用convert_markdown_to_word处理文件内容
-                self._add_content(convert_markdown_to_word(self.file_summaries_map[path]))
-                self.doc.add_paragraph()
-
-        return "\n".join(result)
-
-
-    def create_document(self):
-        """创建完整Word文档并返回文档对象"""
-        # 重置所有编号
-        for level in self.numbers:
-            self.numbers[level] = 0
-
-        # 添加主标题
-        self._add_heading("文档总结报告", 0)
-        self.doc.add_paragraph()
-
-        # 添加总体摘要，使用convert_markdown_to_word处理
-        self._add_heading("总体摘要", 1)
-        self._add_content(convert_markdown_to_word(self.final_summary))
-        self.doc.add_paragraph()
-
-        # 添加失败文件列表（如果有）
-        if self.failed_files:
-            self.format_failed_files()
-
-        # 添加文件详细总结
-        self._add_heading("各文件详细总结", 1)
-        self.format_file_summaries()
-
-        return self.doc
-
-    def save_as_pdf(self, word_path, pdf_path=None):
-        """将生成的Word文档转换为PDF
-        
-        参数:
-            word_path: Word文档的路径
-            pdf_path: 可选，PDF文件的输出路径。如果未指定，将使用与Word文档相同的名称和位置
-            
-        返回:
-            生成的PDF文件路径，如果转换失败则返回None
-        """
-        from crazy_functions.doc_fns.conversation_doc.word2pdf import WordToPdfConverter
-        try:
-            pdf_path = WordToPdfConverter.convert_to_pdf(word_path, pdf_path)
-            return pdf_path
-        except Exception as e:
-            print(f"PDF转换失败: {str(e)}")
-            return None
-
-
-class MarkdownFormatter(DocumentFormatter):
-    """Markdown格式文档生成器"""
-
-    def format_failed_files(self) -> str:
-        if not self.failed_files:
-            return ""
-
-        formatted_text = ["\n## ⚠️ 处理失败的文件"]
-        for fp, reason in self.failed_files:
-            formatted_text.append(f"- {os.path.basename(fp)}: {reason}")
-        formatted_text.append("\n---")
-        return "\n".join(formatted_text)
-
-    def format_file_summaries(self) -> str:
-        formatted_text = []
-        sorted_paths = sorted(self.file_summaries_map.keys())
-        current_dir = ""
-
-        for path in sorted_paths:
-            dir_path = os.path.dirname(path)
-            if dir_path != current_dir:
-                if dir_path:
-                    formatted_text.append(f"\n## 📁 {dir_path}")
-                current_dir = dir_path
-
-            file_name = os.path.basename(path)
-            formatted_text.append(f"\n### 📄 {file_name}")
-            formatted_text.append(self.file_summaries_map[path])
-            formatted_text.append("\n---")
-
-        return "\n".join(formatted_text)
-
-    def create_document(self) -> str:
-        document = [
-            "# 📑 文档总结报告",
-            "\n## 总体摘要",
-            self.final_summary
-        ]
-
-        if self.failed_files:
-            document.append(self.format_failed_files())
-
-        document.extend([
-            "\n# 📚 各文件详细总结",
-            self.format_file_summaries()
-        ])
-
-        return "\n".join(document)
-
-
-
-class HtmlFormatter(DocumentFormatter):
-    """HTML格式文档生成器 - 优化版"""
-
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-        self.md = markdown.Markdown(extensions=['extra','codehilite', 'tables','nl2br'])
-        self.css_styles = """
-        @keyframes fadeIn {
-            from { opacity: 0; transform: translateY(20px); }
-            to { opacity: 1; transform: translateY(0); }
-        }
-
-        @keyframes slideIn {
-            from { transform: translateX(-20px); opacity: 0; }
-            to { transform: translateX(0); opacity: 1; }
-        }
-
-        @keyframes pulse {
-            0% { transform: scale(1); }
-            50% { transform: scale(1.05); }
-            100% { transform: scale(1); }
-        }
-
-        :root {
-            /* Enhanced color palette */
-            --primary-color: #2563eb;
-            --primary-light: #eff6ff;
-            --secondary-color: #1e293b;
-            --background-color: #f8fafc;
-            --text-color: #334155;
-            --text-light: #64748b;
-            --border-color: #e2e8f0;
-            --error-color: #ef4444;
-            --error-light: #fef2f2;
-            --success-color: #22c55e;
-            --warning-color: #f59e0b;
-            --card-shadow: 0 4px 6px -1px rgb(0 0 0 / 0.1), 0 2px 4px -2px rgb(0 0 0 / 0.1);
-            --hover-shadow: 0 20px 25px -5px rgb(0 0 0 / 0.1), 0 8px 10px -6px rgb(0 0 0 / 0.1);
-            
-            /* Typography */
-            --heading-font: "Plus Jakarta Sans", system-ui, sans-serif;
-            --body-font: "Inter", system-ui, sans-serif;
-        }
-
-        body {
-            font-family: var(--body-font);
-            line-height: 1.8;
-            max-width: 1200px;
-            margin: 0 auto;
-            padding: 2rem;
-            color: var(--text-color);
-            background-color: var(--background-color);
-            font-size: 16px;
-            -webkit-font-smoothing: antialiased;
-        }
-
-        .container {
-            background: white;
-            padding: 3rem;
-            border-radius: 24px;
-            box-shadow: var(--card-shadow);
-            transition: all 0.4s cubic-bezier(0.4, 0, 0.2, 1);
-            animation: fadeIn 0.6s ease-out;
-            border: 1px solid var(--border-color);
-        }
-
-        .container:hover {
-            box-shadow: var(--hover-shadow);
-            transform: translateY(-2px);
-        }
-
-        h1, h2, h3 {
-            font-family: var(--heading-font);
-            font-weight: 600;
-        }
-
-        h1 {
-            color: var(--primary-color);
-            font-size: 2.8em;
-            text-align: center;
-            margin: 2rem 0 3rem;
-            padding-bottom: 1.5rem;
-            border-bottom: 3px solid var(--primary-color);
-            letter-spacing: -0.03em;
-            position: relative;
-            display: flex;
-            align-items: center;
-            justify-content: center;
-            gap: 1rem;
-        }
-
-        h1::after {
-            content: '';
-            position: absolute;
-            bottom: -3px;
-            left: 50%;
-            transform: translateX(-50%);
-            width: 120px;
-            height: 3px;
-            background: linear-gradient(90deg, var(--primary-color), var(--primary-light));
-            border-radius: 3px;
-            transition: width 0.3s ease;
-        }
-
-        h1:hover::after {
-            width: 180px;
-        }
-
-        h2 {
-            color: var(--secondary-color);
-            font-size: 1.9em;
-            margin: 2.5rem 0 1.5rem;
-            padding-left: 1.2rem;
-            border-left: 4px solid var(--primary-color);
-            letter-spacing: -0.02em;
-            display: flex;
-            align-items: center;
-            gap: 1rem;
-            transition: all 0.3s ease;
-        }
-
-        h2:hover {
-            color: var(--primary-color);
-            transform: translateX(5px);
-        }
-
-        h3 {
-            color: var(--text-color);
-            font-size: 1.5em;
-            margin: 2rem 0 1rem;
-            padding-bottom: 0.8rem;
-            border-bottom: 2px solid var(--border-color);
-            transition: all 0.3s ease;
-            display: flex;
-            align-items: center;
-            gap: 0.8rem;
-        }
-
-        h3:hover {
-            color: var(--primary-color);
-            border-bottom-color: var(--primary-color);
-        }
-
-        .summary {
-            background: var(--primary-light);
-            padding: 2.5rem;
-            border-radius: 16px;
-            margin: 2.5rem 0;
-            box-shadow: 0 4px 6px -1px rgba(37, 99, 235, 0.1);
-            position: relative;
-            overflow: hidden;
-            transition: transform 0.3s ease, box-shadow 0.3s ease;
-            animation: slideIn 0.5s ease-out;
-        }
-
-        .summary:hover {
-            transform: translateY(-3px);
-            box-shadow: 0 8px 12px -2px rgba(37, 99, 235, 0.15);
-        }
-
-        .summary::before {
-            content: '';
-            position: absolute;
-            top: 0;
-            left: 0;
-            width: 4px;
-            height: 100%;
-            background: linear-gradient(to bottom, var(--primary-color), rgba(37, 99, 235, 0.6));
-        }
-
-        .summary p {
-            margin: 1.2rem 0;
-            line-height: 1.9;
-            color: var(--text-color);
-            transition: color 0.3s ease;
-        }
-
-        .summary:hover p {
-            color: var(--secondary-color);
-        }
-
-        .details {
-            margin-top: 3.5rem;
-            padding-top: 2.5rem;
-            border-top: 2px dashed var(--border-color);
-            animation: fadeIn 0.8s ease-out;
-        }
-
-        .failed-files {
-            background: var(--error-light);
-            padding: 2rem;
-            border-radius: 16px;
-            margin: 3rem 0;
-            border-left: 4px solid var(--error-color);
-            position: relative;
-            transition: all 0.3s ease;
-            animation: slideIn 0.5s ease-out;
-        }
-
-        .failed-files:hover {
-            transform: translateX(5px);
-            box-shadow: 0 8px 15px -3px rgba(239, 68, 68, 0.1);
-        }
-
-        .failed-files h2 {
-            color: var(--error-color);
-            border-left: none;
-            padding-left: 0;
-        }
-
-        .failed-files ul {
-            margin: 1.8rem 0;
-            padding-left: 1.2rem;
-            list-style-type: none;
-        }
-
-        .failed-files li {
-            margin: 1.2rem 0;
-            padding: 1.2rem 1.8rem;
-            background: rgba(239, 68, 68, 0.08);
-            border-radius: 12px;
-            transition: all 0.3s cubic-bezier(0.4, 0, 0.2, 1);
-        }
-
-        .failed-files li:hover {
-            transform: translateX(8px);
-            background: rgba(239, 68, 68, 0.12);
-        }
-
-        .directory-section {
-            margin: 3.5rem 0;
-            padding: 2rem;
-            background: var(--background-color);
-            border-radius: 16px;
-            position: relative;
-            transition: all 0.3s ease;
-            animation: fadeIn 0.6s ease-out;
-        }
-
-        .directory-section:hover {
-            background: white;
-            box-shadow: var(--card-shadow);
-        }
-
-        .file-summary {
-            background: white;
-            padding: 2rem;
-            margin: 1.8rem 0;
-            border-radius: 16px;
-            box-shadow: var(--card-shadow);
-            border-left: 4px solid var(--border-color);
-            transition: all 0.4s cubic-bezier(0.4, 0, 0.2, 1);
-            position: relative;
-            overflow: hidden;
-        }
-
-        .file-summary:hover {
-            border-left-color: var(--primary-color);
-            transform: translateX(8px) translateY(-2px);
-            box-shadow: var(--hover-shadow);
-        }
-
-        .file-summary {
-            background: white;
-            padding: 2rem;
-            margin: 1.8rem 0;
-            border-radius: 16px;
-            box-shadow: var(--card-shadow);
-            border-left: 4px solid var(--border-color);
-            transition: all 0.4s cubic-bezier(0.4, 0, 0.2, 1);
-            position: relative;
-        }
-
-        .file-summary:hover {
-            border-left-color: var(--primary-color);
-            transform: translateX(8px) translateY(-2px);
-            box-shadow: var(--hover-shadow);
-        }
-
-        .icon {
-            display: inline-flex;
-            align-items: center;
-            justify-content: center;
-            width: 32px;
-            height: 32px;
-            border-radius: 8px;
-            background: var(--primary-light);
-            color: var(--primary-color);
-            font-size: 1.2em;
-            transition: all 0.3s ease;
-        }
-
-        .file-summary:hover .icon,
-        .directory-section:hover .icon {
-            transform: scale(1.1);
-            background: var(--primary-color);
-            color: white;
-        }
-
-        /* Smooth scrolling */
-        html {
-            scroll-behavior: smooth;
-        }
-
-        /* Selection style */
-        ::selection {
-            background: var(--primary-light);
-            color: var(--primary-color);
-        }
-
-        /* Print styles */
-        @media print {
-            body {
-                background: white;
-            }
-            .container {
-                box-shadow: none;
-                padding: 0;
-            }
-            .file-summary, .failed-files {
-                break-inside: avoid;
-                box-shadow: none;
-            }
-            .icon {
-                display: none;
-            }
-        }
-
-        /* Responsive design */
-        @media (max-width: 768px) {
-            body {
-                padding: 1rem;
-                font-size: 15px;
-            }
-            
-            .container {
-                padding: 1.5rem;
-            }
-
-            h1 {
-                font-size: 2.2em;
-                margin: 1.5rem 0 2rem;
-            }
-
-            h2 {
-                font-size: 1.7em;
-            }
-
-            h3 {
-                font-size: 1.4em;
-            }
-
-            .summary, .failed-files, .directory-section {
-                padding: 1.5rem;
-            }
-
-            .file-summary {
-                padding: 1.2rem;
-            }
-
-            .icon {
-                width: 28px;
-                height: 28px;
-            }
-        }
-
-        /* Dark mode support */
-        @media (prefers-color-scheme: dark) {
-            :root {
-                --primary-light: rgba(37, 99, 235, 0.15);
-                --background-color: #0f172a;
-                --text-color: #e2e8f0;
-                --text-light: #94a3b8;
-                --border-color: #1e293b;
-                --error-light: rgba(239, 68, 68, 0.15);
-            }
-
-            .container, .file-summary {
-                background: #1e293b;
-            }
-
-            .directory-section {
-                background: #0f172a;
-            }
-
-            .directory-section:hover {
-                background: #1e293b;
-            }
-        }
-        """
-
-    def format_failed_files(self) -> str:
-        if not self.failed_files:
-            return ""
-
-        failed_files_html = ['<div class="failed-files">']
-        failed_files_html.append('<h2><span class="icon">⚠️</span> 处理失败的文件</h2>')
-        failed_files_html.append("<ul>")
-        for fp, reason in self.failed_files:
-            failed_files_html.append(
-                f'<li><strong>📄 {os.path.basename(fp)}</strong><br><span style="color: var(--text-light)">{reason}</span></li>'
-            )
-        failed_files_html.append("</ul></div>")
-        return "\n".join(failed_files_html)
-
-    def format_file_summaries(self) -> str:
-        formatted_html = []
-        sorted_paths = sorted(self.file_summaries_map.keys())
-        current_dir = ""
-
-        for path in sorted_paths:
-            dir_path = os.path.dirname(path)
-            if dir_path != current_dir:
-                if dir_path:
-                    formatted_html.append('<div class="directory-section">')
-                    formatted_html.append(f'<h2><span class="icon">📁</span> {dir_path}</h2>')
-                    formatted_html.append('</div>')
-                current_dir = dir_path
-
-            file_name = os.path.basename(path)
-            formatted_html.append('<div class="file-summary">')
-            formatted_html.append(f'<h3><span class="icon">📄</span> {file_name}</h3>')
-            formatted_html.append(self.md.convert(self.file_summaries_map[path]))
-            formatted_html.append('</div>')
-
-        return "\n".join(formatted_html)
-
-    def create_document(self) -> str:
-        """生成HTML文档
-        Returns:
-            str: 完整的HTML文档字符串
-        """
-        return f"""
-        <!DOCTYPE html>
-        <html lang="zh-CN">
-        <head>
-            <meta charset="utf-8">
-            <meta name="viewport" content="width=device-width, initial-scale=1">
-            <title>文档总结报告</title>
-            <link href="https://cdnjs.cloudflare.com/ajax/libs/inter/3.19.3/inter.css" rel="stylesheet">
-            <link href="https://fonts.googleapis.com/css2?family=Plus+Jakarta+Sans:wght@400;600&display=swap" rel="stylesheet">
-            <style>{self.css_styles}</style>
-        </head>
-        <body>
-            <div class="container">
-                <h1><span class="icon">📑</span> 文档总结报告</h1>
-                <div class="summary">
-                    <h2><span class="icon">📋</span> 总体摘要</h2>
-                    <p>{self.md.convert(self.final_summary)}</p>
-                </div>
-                {self.format_failed_files()}
-                <div class="details">
-                    <h2><span class="icon">📚</span> 各文件详细总结</h2>
-                    {self.format_file_summaries()}
-                </div>
-            </div>
-
-        </body>
-        </html>
-        """
--- a/crazy_functions/doc_fns/content_folder.py
+++ b/crazy_functions/doc_fns/content_folder.py
@@ -1,237 +0,0 @@
-from abc import ABC, abstractmethod
-from typing import Any, Dict, Optional, Type, TypeVar, Generic, Union
-
-from dataclasses import dataclass
-from enum import Enum, auto
-import logging
-from datetime import datetime
-
-# 设置日志
-logger = logging.getLogger(__name__)
-
-
-# 自定义异常类定义
-class FoldingError(Exception):
-    """折叠相关的自定义异常基类"""
-    pass
-
-
-class FormattingError(FoldingError):
-    """格式化过程中的错误"""
-    pass
-
-
-class MetadataError(FoldingError):
-    """元数据相关的错误"""
-    pass
-
-
-class ValidationError(FoldingError):
-    """验证错误"""
-    pass
-
-
-class FoldingStyle(Enum):
-    """折叠样式枚举"""
-    SIMPLE = auto()  # 简单折叠
-    DETAILED = auto()  # 详细折叠（带有额外信息）
-    NESTED = auto()  # 嵌套折叠
-
-
-@dataclass
-class FoldingOptions:
-    """折叠选项配置"""
-    style: FoldingStyle = FoldingStyle.DETAILED
-    code_language: Optional[str] = None  # 代码块的语言
-    show_timestamp: bool = False  # 是否显示时间戳
-    indent_level: int = 0  # 缩进级别
-    custom_css: Optional[str] = None  # 自定义CSS类
-
-
-T = TypeVar('T')  # 用于泛型类型
-
-
-class BaseMetadata(ABC):
-    """元数据基类"""
-
-    @abstractmethod
-    def validate(self) -> bool:
-        """验证元数据的有效性"""
-        pass
-
-    def _validate_non_empty_str(self, value: Optional[str]) -> bool:
-        """验证字符串非空"""
-        return bool(value and value.strip())
-
-
-@dataclass
-class FileMetadata(BaseMetadata):
-    """文件元数据"""
-    rel_path: str
-    size: float
-    last_modified: Optional[datetime] = None
-    mime_type: Optional[str] = None
-    encoding: str = 'utf-8'
-
-    def validate(self) -> bool:
-        """验证文件元数据的有效性"""
-        try:
-            if not self._validate_non_empty_str(self.rel_path):
-                return False
-            if self.size < 0:
-                return False
-            return True
-        except Exception as e:
-            logger.error(f"File metadata validation error: {str(e)}")
-            return False
-
-
-
-
-class ContentFormatter(ABC, Generic[T]):
-    """内容格式化抽象基类
-
-    支持泛型类型参数，可以指定具体的元数据类型。
-    """
-
-    @abstractmethod
-    def format(self,
-               content: str,
-               metadata: T,
-               options: Optional[FoldingOptions] = None) -> str:
-        """格式化内容
-
-        Args:
-            content: 需要格式化的内容
-            metadata: 类型化的元数据
-            options: 折叠选项
-
-        Returns:
-            str: 格式化后的内容
-
-        Raises:
-            FormattingError: 格式化过程中的错误
-        """
-        pass
-
-    def _create_summary(self, metadata: T) -> str:
-        """创建折叠摘要，可被子类重写"""
-        return str(metadata)
-
-    def _format_content_block(self,
-                              content: str,
-                              options: Optional[FoldingOptions]) -> str:
-        """格式化内容块，处理代码块等特殊格式"""
-        if not options:
-            return content
-
-        if options.code_language:
-            return f"```{options.code_language}\n{content}\n```"
-        return content
-
-    def _add_indent(self, text: str, level: int) -> str:
-        """添加缩进"""
-        if level <= 0:
-            return text
-        indent = "  " * level
-        return "\n".join(indent + line for line in text.splitlines())
-
-
-class FileContentFormatter(ContentFormatter[FileMetadata]):
-    """文件内容格式化器"""
-
-    def format(self,
-               content: str,
-               metadata: FileMetadata,
-               options: Optional[FoldingOptions] = None) -> str:
-        """格式化文件内容"""
-        if not metadata.validate():
-            raise MetadataError("Invalid file metadata")
-
-        try:
-            options = options or FoldingOptions()
-
-            # 构建摘要信息
-            summary_parts = [
-                f"{metadata.rel_path} ({metadata.size:.2f}MB)",
-                f"Type: {metadata.mime_type}" if metadata.mime_type else None,
-                (f"Modified: {metadata.last_modified.strftime('%Y-%m-%d %H:%M:%S')}"
-                 if metadata.last_modified and options.show_timestamp else None)
-            ]
-            summary = " | ".join(filter(None, summary_parts))
-
-            # 构建HTML类
-            css_class = f' class="{options.custom_css}"' if options.custom_css else ''
-
-            # 格式化内容
-            formatted_content = self._format_content_block(content, options)
-
-            # 组装最终结果
-            result = (
-                f'<details{css_class}><summary>{summary}</summary>\n\n'
-                f'{formatted_content}\n\n'
-                f'</details>\n\n'
-            )
-
-            return self._add_indent(result, options.indent_level)
-
-        except Exception as e:
-            logger.error(f"Error formatting file content: {str(e)}")
-            raise FormattingError(f"Failed to format file content: {str(e)}")
-
-
-class ContentFoldingManager:
-    """内容折叠管理器"""
-
-    def __init__(self):
-        """初始化折叠管理器"""
-        self._formatters: Dict[str, ContentFormatter] = {}
-        self._register_default_formatters()
-
-    def _register_default_formatters(self) -> None:
-        """注册默认的格式化器"""
-        self.register_formatter('file', FileContentFormatter())
-
-    def register_formatter(self, name: str, formatter: ContentFormatter) -> None:
-        """注册新的格式化器"""
-        if not isinstance(formatter, ContentFormatter):
-            raise TypeError("Formatter must implement ContentFormatter interface")
-        self._formatters[name] = formatter
-
-    def _guess_language(self, extension: str) -> Optional[str]:
-        """根据文件扩展名猜测编程语言"""
-        extension = extension.lower().lstrip('.')
-        language_map = {
-            'py': 'python',
-            'js': 'javascript',
-            'java': 'java',
-            'cpp': 'cpp',
-            'cs': 'csharp',
-            'html': 'html',
-            'css': 'css',
-            'md': 'markdown',
-            'json': 'json',
-            'xml': 'xml',
-            'sql': 'sql',
-            'sh': 'bash',
-            'yaml': 'yaml',
-            'yml': 'yaml',
-            'txt': None  # 纯文本不需要语言标识
-        }
-        return language_map.get(extension)
-
-    def format_content(self,
-                       content: str,
-                       formatter_type: str,
-                       metadata: Union[FileMetadata],
-                       options: Optional[FoldingOptions] = None) -> str:
-        """格式化内容"""
-        formatter = self._formatters.get(formatter_type)
-        if not formatter:
-            raise KeyError(f"No formatter registered for type: {formatter_type}")
-
-        if not isinstance(metadata, FileMetadata):
-            raise TypeError("Invalid metadata type")
-
-        return formatter.format(content, metadata, options)
-
--- a/crazy_functions/doc_fns/conversation_doc/excel_doc.py
+++ b/crazy_functions/doc_fns/conversation_doc/excel_doc.py
@@ -1,211 +0,0 @@
-import re
-import os
-import pandas as pd
-from datetime import datetime
-from openpyxl import Workbook
-
-
-class ExcelTableFormatter:
-    """聊天记录中Markdown表格转Excel生成器"""
-
-    def __init__(self):
-        """初始化Excel文档对象"""
-        self.workbook = Workbook()
-        self._table_count = 0
-        self._current_sheet = None
-
-    def _normalize_table_row(self, row):
-        """标准化表格行，处理不同的分隔符情况"""
-        row = row.strip()
-        if row.startswith('|'):
-            row = row[1:]
-        if row.endswith('|'):
-            row = row[:-1]
-        return [cell.strip() for cell in row.split('|')]
-
-    def _is_separator_row(self, row):
-        """检查是否是分隔行（由 - 或 : 组成）"""
-        clean_row = re.sub(r'[\s|]', '', row)
-        return bool(re.match(r'^[-:]+$', clean_row))
-
-    def _extract_tables_from_text(self, text):
-        """从文本中提取所有表格内容"""
-        if not isinstance(text, str):
-            return []
-
-        tables = []
-        current_table = []
-        is_in_table = False
-
-        for line in text.split('\n'):
-            line = line.strip()
-            if not line:
-                if is_in_table and current_table:
-                    if len(current_table) >= 2:
-                        tables.append(current_table)
-                    current_table = []
-                    is_in_table = False
-                continue
-
-            if '|' in line:
-                if not is_in_table:
-                    is_in_table = True
-                current_table.append(line)
-            else:
-                if is_in_table and current_table:
-                    if len(current_table) >= 2:
-                        tables.append(current_table)
-                    current_table = []
-                    is_in_table = False
-
-        if is_in_table and current_table and len(current_table) >= 2:
-            tables.append(current_table)
-
-        return tables
-
-    def _parse_table(self, table_lines):
-        """解析表格内容为结构化数据"""
-        try:
-            headers = self._normalize_table_row(table_lines[0])
-
-            separator_index = next(
-                (i for i, line in enumerate(table_lines) if self._is_separator_row(line)),
-                1
-            )
-
-            data_rows = []
-            for line in table_lines[separator_index + 1:]:
-                cells = self._normalize_table_row(line)
-                # 确保单元格数量与表头一致
-                while len(cells) < len(headers):
-                    cells.append('')
-                cells = cells[:len(headers)]
-                data_rows.append(cells)
-
-            if headers and data_rows:
-                return {
-                    'headers': headers,
-                    'data': data_rows
-                }
-        except Exception as e:
-            print(f"解析表格时发生错误: {str(e)}")
-
-        return None
-
-    def _create_sheet(self, question_num, table_num):
-        """创建新的工作表"""
-        sheet_name = f'Q{question_num}_T{table_num}'
-        if len(sheet_name) > 31:
-            sheet_name = f'Table{self._table_count}'
-
-        if sheet_name in self.workbook.sheetnames:
-            sheet_name = f'{sheet_name}_{datetime.now().strftime("%H%M%S")}'
-
-        return self.workbook.create_sheet(title=sheet_name)
-
-    def create_document(self, history):
-        """
-        处理聊天历史中的所有表格并创建Excel文档
-
-        Args:
-            history: 聊天历史列表
-
-        Returns:
-            Workbook: 处理完成的Excel工作簿对象，如果没有表格则返回None
-        """
-        has_tables = False
-
-        # 删除默认创建的工作表
-        default_sheet = self.workbook['Sheet']
-        self.workbook.remove(default_sheet)
-
-        # 遍历所有回答
-        for i in range(1, len(history), 2):
-            answer = history[i]
-            tables = self._extract_tables_from_text(answer)
-
-            for table_lines in tables:
-                parsed_table = self._parse_table(table_lines)
-                if parsed_table:
-                    self._table_count += 1
-                    sheet = self._create_sheet(i // 2 + 1, self._table_count)
-
-                    # 写入表头
-                    for col, header in enumerate(parsed_table['headers'], 1):
-                        sheet.cell(row=1, column=col, value=header)
-
-                    # 写入数据
-                    for row_idx, row_data in enumerate(parsed_table['data'], 2):
-                        for col_idx, value in enumerate(row_data, 1):
-                            sheet.cell(row=row_idx, column=col_idx, value=value)
-
-                    has_tables = True
-
-        return self.workbook if has_tables else None
-
-
-def save_chat_tables(history, save_dir, base_name):
-    """
-    保存聊天历史中的表格到Excel文件
-
-    Args:
-        history: 聊天历史列表
-        save_dir: 保存目录
-        base_name: 基础文件名
-
-    Returns:
-        list: 保存的文件路径列表
-    """
-    result_files = []
-
-    try:
-        # 创建Excel格式
-        excel_formatter = ExcelTableFormatter()
-        workbook = excel_formatter.create_document(history)
-
-        if workbook is not None:
-            # 确保保存目录存在
-            os.makedirs(save_dir, exist_ok=True)
-
-            # 生成Excel文件路径
-            excel_file = os.path.join(save_dir, base_name + '.xlsx')
-
-            # 保存Excel文件
-            workbook.save(excel_file)
-            result_files.append(excel_file)
-            print(f"已保存表格到Excel文件: {excel_file}")
-    except Exception as e:
-        print(f"保存Excel格式失败: {str(e)}")
-
-    return result_files
-
-
-# 使用示例
-if __name__ == "__main__":
-    # 示例聊天历史
-    history = [
-        "问题1",
-        """这是第一个表格：
-        | A | B | C |
-        |---|---|---|
-        | 1 | 2 | 3 |""",
-
-        "问题2",
-        "这是没有表格的回答",
-
-        "问题3",
-        """回答包含多个表格：
-        | Name | Age |
-        |------|-----|
-        | Tom  | 20  |
-
-        第二个表格：
-        | X | Y |
-        |---|---|
-        | 1 | 2 |"""
-    ]
-
-    # 保存表格
-    save_dir = "output"
-    base_name = "chat_tables"
-    saved_files = save_chat_tables(history, save_dir, base_name)
--- a/crazy_functions/doc_fns/conversation_doc/html_doc.py
+++ b/crazy_functions/doc_fns/conversation_doc/html_doc.py
@@ -1,190 +0,0 @@
-
-
-class HtmlFormatter:
-    """聊天记录HTML格式生成器"""
-    
-    def __init__(self, chatbot, history):
-        self.chatbot = chatbot
-        self.history = history
-        self.css_styles = """
-        :root {
-            --primary-color: #2563eb;
-            --primary-light: #eff6ff;
-            --secondary-color: #1e293b;
-            --background-color: #f8fafc;
-            --text-color: #334155;
-            --border-color: #e2e8f0;
-            --card-shadow: 0 4px 6px -1px rgb(0 0 0 / 0.1), 0 2px 4px -2px rgb(0 0 0 / 0.1);
-        }
-
-        body {
-            font-family: system-ui, -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, sans-serif;
-            line-height: 1.8;
-            margin: 0;
-            padding: 2rem;
-            color: var(--text-color);
-            background-color: var(--background-color);
-        }
-
-        .container {
-            max-width: 1200px;
-            margin: 0 auto;
-            background: white;
-            padding: 2rem;
-            border-radius: 16px;
-            box-shadow: var(--card-shadow);
-        }
-        ::selection {
-            background: var(--primary-light);
-            color: var(--primary-color);
-        }
-        @keyframes fadeIn {
-            from { opacity: 0; transform: translateY(20px); }
-            to { opacity: 1; transform: translateY(0); }
-        }
-        
-        @keyframes slideIn {
-            from { transform: translateX(-20px); opacity: 0; }
-            to { transform: translateX(0); opacity: 1; }
-        }
-        
-        .container {
-            animation: fadeIn 0.6s ease-out;
-        }
-        
-        .QaBox {
-            animation: slideIn 0.5s ease-out;
-            transition: all 0.3s ease;
-        }
-        
-        .QaBox:hover {
-            transform: translateX(5px);
-        }
-        .Question, .Answer, .historyBox {
-            transition: all 0.3s ease;
-        }
-        .chat-title {
-            color: var(--primary-color);
-            font-size: 2em;
-            text-align: center;
-            margin: 1rem 0 2rem;
-            padding-bottom: 1rem;
-            border-bottom: 2px solid var(--primary-color);
-        }
-
-        .chat-body {
-            display: flex;
-            flex-direction: column;
-            gap: 1.5rem;
-            margin: 2rem 0;
-        }
-
-        .QaBox {
-            background: white;
-            padding: 1.5rem;
-            border-radius: 8px;
-            border-left: 4px solid var(--primary-color);
-            box-shadow: 0 2px 4px rgba(0, 0, 0, 0.1);
-            margin-bottom: 1.5rem;
-        }
-
-        .Question {
-            color: var(--secondary-color);
-            font-weight: 500;
-            margin-bottom: 1rem;
-        }
-
-        .Answer {
-            color: var(--text-color);
-            background: var(--primary-light);
-            padding: 1rem;
-            border-radius: 6px;
-        }
-
-        .history-section {
-            margin-top: 3rem;
-            padding-top: 2rem;
-            border-top: 2px solid var(--border-color);
-        }
-
-        .history-title {
-            color: var(--secondary-color);
-            font-size: 1.5em;
-            margin-bottom: 1.5rem;
-            text-align: center;
-        }
-
-        .historyBox {
-            background: white;
-            padding: 1rem;
-            margin: 0.5rem 0;
-            border-radius: 6px;
-            border: 1px solid var(--border-color);
-        }
-
-        @media (prefers-color-scheme: dark) {
-            :root {
-                --background-color: #0f172a;
-                --text-color: #e2e8f0;
-                --border-color: #1e293b;
-            }
-            
-            .container, .QaBox {
-                background: #1e293b;
-            }
-        }
-        """
-
-    def format_chat_content(self) -> str:
-        """格式化聊天内容"""
-        chat_content = []
-        for q, a in self.chatbot:
-            question = str(q) if q is not None else ""
-            answer = str(a) if a is not None else ""
-            chat_content.append(f'''
-            <div class="QaBox">
-                <div class="Question">{question}</div>
-                <div class="Answer">{answer}</div>
-            </div>
-            ''')
-        return "\n".join(chat_content)
-
-    def format_history_content(self) -> str:
-        """格式化历史记录内容"""
-        if not self.history:
-            return ""
-            
-        history_content = []
-        for entry in self.history:
-            history_content.append(f'''
-            <div class="historyBox">
-                <div class="entry">{entry}</div>
-            </div>
-            ''')
-        return "\n".join(history_content)
-
-    def create_document(self) -> str:
-        """生成完整的HTML文档
-        
-        Returns:
-            str: 完整的HTML文档字符串
-        """
-        return f"""
-        <!DOCTYPE html>
-        <html lang="zh-CN">
-        <head>
-            <meta charset="utf-8">
-            <meta name="viewport" content="width=device-width, initial-scale=1">
-            <title>对话存档</title>
-            <style>{self.css_styles}</style>
-        </head>
-        <body>
-            <div class="container">
-                <h1 class="chat-title">对话存档</h1>
-                <div class="chat-body">
-                    {self.format_chat_content()}
-                </div>
-            </div>
-        </body>
-        </html>
-        """
--- a/crazy_functions/doc_fns/conversation_doc/markdown_doc.py
+++ b/crazy_functions/doc_fns/conversation_doc/markdown_doc.py
@@ -1,39 +0,0 @@
-
-class MarkdownFormatter:
-    """Markdown格式文档生成器 - 用于生成对话记录的markdown文档"""
-
-    def __init__(self):
-        self.content = []
-
-    def _add_content(self, text: str):
-        """添加正文内容"""
-        if text:
-            self.content.append(f"\n{text}\n")
-
-    def create_document(self, history: list) -> str:
-        """
-        创建完整的Markdown文档
-        Args:
-            history: 历史记录列表，偶数位置为问题，奇数位置为答案
-        Returns:
-            str: 生成的Markdown文本
-        """
-        self.content = []
-        
-        # 处理问答对
-        for i in range(0, len(history), 2):
-            question = history[i]
-            answer = history[i + 1]
-            
-            # 添加问题
-            self.content.append(f"\n### 问题 {i//2 + 1}")
-            self._add_content(question)
-            
-            # 添加回答
-            self.content.append(f"\n### 回答 {i//2 + 1}")
-            self._add_content(answer)
-            
-            # 添加分隔线
-            self.content.append("\n---\n")
-
-        return "\n".join(self.content)
--- a/crazy_functions/doc_fns/conversation_doc/pdf_doc.py
+++ b/crazy_functions/doc_fns/conversation_doc/pdf_doc.py
@@ -1,172 +0,0 @@
-from datetime import datetime
-import os
-import re
-from reportlab.pdfbase import pdfmetrics
-from reportlab.pdfbase.ttfonts import TTFont
-
-def convert_markdown_to_pdf(markdown_text):
-    """将Markdown文本转换为PDF格式的纯文本"""
-    if not markdown_text:
-        return ""
-
-    # 标准化换行符
-    markdown_text = markdown_text.replace('\r\n', '\n').replace('\r', '\n')
-
-    # 处理标题、粗体、斜体
-    markdown_text = re.sub(r'^#\s+(.+)$', r'\1', markdown_text, flags=re.MULTILINE)
-    markdown_text = re.sub(r'\*\*(.+?)\*\*', r'\1', markdown_text)
-    markdown_text = re.sub(r'\*(.+?)\*', r'\1', markdown_text)
-
-    # 处理列表
-    markdown_text = re.sub(r'^\s*[-*+]\s+(.+?)(?=\n|$)', r'• \1', markdown_text, flags=re.MULTILINE)
-    markdown_text = re.sub(r'^\s*\d+\.\s+(.+?)(?=\n|$)', r'\1', markdown_text, flags=re.MULTILINE)
-
-    # 处理链接
-    markdown_text = re.sub(r'\[([^\]]+)\]\(([^)]+)\)', r'\1', markdown_text)
-
-    # 处理段落
-    markdown_text = re.sub(r'\n{2,}', '\n', markdown_text)
-    markdown_text = re.sub(r'(?<!\n)(?<!^)(?<!•\s)(?<!\d\.\s)\n(?![\s•\d])', '\n\n', markdown_text, flags=re.MULTILINE)
-
-    # 清理空白
-    markdown_text = re.sub(r' +', ' ', markdown_text)
-    markdown_text = re.sub(r'(?m)^\s+|\s+$', '', markdown_text)
-
-    return markdown_text.strip()
-
-class PDFFormatter:
-    """聊天记录PDF文档生成器 - 使用 Noto Sans CJK 字体"""
-
-    def __init__(self):
-        self._init_reportlab()
-        self._register_fonts()
-        self.styles = self._get_reportlab_lib()['getSampleStyleSheet']()
-        self._create_styles()
-
-    def _init_reportlab(self):
-        """初始化 ReportLab 相关组件"""
-        from reportlab.lib.pagesizes import A4
-        from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
-        from reportlab.lib.units import cm
-        from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer
-        
-        self._lib = {
-            'A4': A4,
-            'getSampleStyleSheet': getSampleStyleSheet,
-            'ParagraphStyle': ParagraphStyle,
-            'cm': cm
-        }
-        
-        self._platypus = {
-            'SimpleDocTemplate': SimpleDocTemplate,
-            'Paragraph': Paragraph,
-            'Spacer': Spacer
-        }
-
-    def _get_reportlab_lib(self):
-        return self._lib
-
-    def _get_reportlab_platypus(self):
-        return self._platypus
-
-    def _register_fonts(self):
-        """注册 Noto Sans CJK 字体"""
-        possible_font_paths = [
-            '/usr/share/fonts/opentype/noto/NotoSansCJK-Regular.ttc',
-            '/usr/share/fonts/noto-cjk/NotoSansCJK-Regular.ttc',
-            '/usr/share/fonts/noto/NotoSansCJK-Regular.ttc'
-        ]
-
-        font_registered = False
-        for path in possible_font_paths:
-            if os.path.exists(path):
-                try:
-                    pdfmetrics.registerFont(TTFont('NotoSansCJK', path))
-                    font_registered = True
-                    break
-                except:
-                    continue
-
-        if not font_registered:
-            print("Warning: Could not find Noto Sans CJK font. Using fallback font.")
-            self.font_name = 'Helvetica'
-        else:
-            self.font_name = 'NotoSansCJK'
-
-    def _create_styles(self):
-        """创建文档样式"""
-        ParagraphStyle = self._lib['ParagraphStyle']
-
-        # 标题样式
-        self.styles.add(ParagraphStyle(
-            name='Title_Custom',
-            fontName=self.font_name,
-            fontSize=24,
-            leading=38,
-            alignment=1,
-            spaceAfter=32
-        ))
-
-        # 日期样式
-        self.styles.add(ParagraphStyle(
-            name='Date_Style',
-            fontName=self.font_name,
-            fontSize=16,
-            leading=20,
-            alignment=1,
-            spaceAfter=20
-        ))
-
-        # 问题样式
-        self.styles.add(ParagraphStyle(
-            name='Question_Style',
-            fontName=self.font_name,
-            fontSize=12,
-            leading=18,
-            leftIndent=28,
-            spaceAfter=6
-        ))
-
-        # 回答样式
-        self.styles.add(ParagraphStyle(
-            name='Answer_Style',
-            fontName=self.font_name,
-            fontSize=12,
-            leading=18,
-            leftIndent=28,
-            spaceAfter=12
-        ))
-
-    def create_document(self, history, output_path):
-        """生成PDF文档"""
-        # 创建PDF文档
-        doc = self._platypus['SimpleDocTemplate'](
-            output_path,
-            pagesize=self._lib['A4'],
-            rightMargin=2.6 * self._lib['cm'],
-            leftMargin=2.8 * self._lib['cm'],
-            topMargin=3.7 * self._lib['cm'],
-            bottomMargin=3.5 * self._lib['cm']
-        )
-
-        # 构建内容
-        story = []
-        Paragraph = self._platypus['Paragraph']
-
-        # 添加对话内容
-        for i in range(0, len(history), 2):
-            question = history[i]
-            answer = convert_markdown_to_pdf(history[i + 1]) if i + 1 < len(history) else ""
-
-            if question:
-                q_text = f'问题 {i // 2 + 1}：{str(question)}'
-                story.append(Paragraph(q_text, self.styles['Question_Style']))
-
-            if answer:
-                a_text = f'回答 {i // 2 + 1}：{str(answer)}'
-                story.append(Paragraph(a_text, self.styles['Answer_Style']))
-
-        # 构建PDF
-        doc.build(story)
-
-        return doc
--- a/crazy_functions/doc_fns/conversation_doc/txt_doc.py
+++ b/crazy_functions/doc_fns/conversation_doc/txt_doc.py
@@ -1,79 +0,0 @@
-
-import re
-
-
-def convert_markdown_to_txt(markdown_text):
-    """Convert markdown text to plain text while preserving formatting"""
-    # Standardize line endings
-    markdown_text = markdown_text.replace('\r\n', '\n').replace('\r', '\n')
-
-    # 1. Handle headers but keep their formatting instead of removing them
-    markdown_text = re.sub(r'^#\s+(.+)$', r'# \1', markdown_text, flags=re.MULTILINE)
-    markdown_text = re.sub(r'^##\s+(.+)$', r'## \1', markdown_text, flags=re.MULTILINE)
-    markdown_text = re.sub(r'^###\s+(.+)$', r'### \1', markdown_text, flags=re.MULTILINE)
-
-    # 2. Handle bold and italic - simply remove markers
-    markdown_text = re.sub(r'\*\*(.+?)\*\*', r'\1', markdown_text)
-    markdown_text = re.sub(r'\*(.+?)\*', r'\1', markdown_text)
-
-    # 3. Handle lists but preserve formatting
-    markdown_text = re.sub(r'^\s*[-*+]\s+(.+?)(?=\n|$)', r'• \1', markdown_text, flags=re.MULTILINE)
-
-    # 4. Handle links - keep only the text
-    markdown_text = re.sub(r'\[([^\]]+)\]\(([^)]+)\)', r'\1 (\2)', markdown_text)
-
-    # 5. Handle HTML links - convert to user-friendly format
-    markdown_text = re.sub(r'<a href=[\'"]([^\'"]+)[\'"](?:\s+target=[\'"][^\'"]+[\'"])?>([^<]+)</a>', r'\2 (\1)',
-                           markdown_text)
-
-    # 6. Preserve paragraph breaks
-    markdown_text = re.sub(r'\n{3,}', '\n\n', markdown_text)  # normalize multiple newlines to double newlines
-
-    # 7. Clean up extra spaces but maintain indentation
-    markdown_text = re.sub(r' +', ' ', markdown_text)
-
-    return markdown_text.strip()
-
-
-class TxtFormatter:
-    """Chat history TXT document generator"""
-
-    def __init__(self):
-        self.content = []
-        self._setup_document()
-
-    def _setup_document(self):
-        """Initialize document with header"""
-        self.content.append("=" * 50)
-        self.content.append("GPT-Academic对话记录".center(48))
-        self.content.append("=" * 50)
-
-    def _format_header(self):
-        """Create document header with current date"""
-        from datetime import datetime
-        date_str = datetime.now().strftime('%Y年%m月%d日')
-        return [
-            date_str.center(48),
-            "\n"  # Add blank line after date
-        ]
-
-    def create_document(self, history):
-        """Generate document from chat history"""
-        # Add header with date
-        self.content.extend(self._format_header())
-
-        # Add conversation content
-        for i in range(0, len(history), 2):
-            question = history[i]
-            answer = convert_markdown_to_txt(history[i + 1]) if i + 1 < len(history) else ""
-
-            if question:
-                self.content.append(f"问题 {i // 2 + 1}：{str(question)}")
-                self.content.append("")  # Add blank line
-
-            if answer:
-                self.content.append(f"回答 {i // 2 + 1}：{str(answer)}")
-                self.content.append("")  # Add blank line
-
-        # Join all content with newlines
-        return "\n".join(self.content)
--- a/crazy_functions/doc_fns/conversation_doc/word2pdf.py
+++ b/crazy_functions/doc_fns/conversation_doc/word2pdf.py
@@ -1,155 +0,0 @@
-from docx2pdf import convert
-import os
-import platform
-import subprocess
-from typing import Union
-from pathlib import Path
-from datetime import datetime
-
-class WordToPdfConverter:
-    """Word文档转PDF转换器"""
-    
-    @staticmethod
-    def convert_to_pdf(word_path: Union[str, Path], pdf_path: Union[str, Path] = None) -> str:
-        """
-        将Word文档转换为PDF
-        
-        参数:
-            word_path: Word文档的路径
-            pdf_path: 可选，PDF文件的输出路径。如果未指定，将使用与Word文档相同的名称和位置
-            
-        返回:
-            生成的PDF文件路径
-        
-        异常:
-            如果转换失败，将抛出相应异常
-        """
-        try:
-            # 确保输入路径是Path对象
-            word_path = Path(word_path)
-            
-            # 如果未指定pdf_path，则使用与word文档相同的名称
-            if pdf_path is None:
-                pdf_path = word_path.with_suffix('.pdf')
-            else:
-                pdf_path = Path(pdf_path)
-            
-            # 检查操作系统
-            if platform.system() == 'Linux':
-                # Linux系统需要安装libreoffice
-                which_result = subprocess.run(['which', 'libreoffice'], capture_output=True, text=True)
-                if which_result.returncode != 0:
-                    raise RuntimeError("请先安装LibreOffice: sudo apt-get install libreoffice")
-                
-                print(f"开始转换Word文档: {word_path} 到 PDF")
-                
-                # 使用subprocess代替os.system
-                result = subprocess.run(
-                    ['libreoffice', '--headless', '--convert-to', 'pdf:writer_pdf_Export', 
-                     str(word_path), '--outdir', str(pdf_path.parent)],
-                    capture_output=True, text=True
-                )
-                
-                if result.returncode != 0:
-                    error_msg = result.stderr or "未知错误"
-                    print(f"LibreOffice转换失败，错误信息: {error_msg}")
-                    raise RuntimeError(f"LibreOffice转换失败: {error_msg}")
-                
-                print(f"LibreOffice转换输出: {result.stdout}")
-                
-                # 如果输出路径与默认生成的不同，则重命名
-                default_pdf = word_path.with_suffix('.pdf')
-                if default_pdf != pdf_path and default_pdf.exists():
-                    os.rename(default_pdf, pdf_path)
-                    print(f"已将PDF从 {default_pdf} 重命名为 {pdf_path}")
-                
-                # 验证PDF是否成功生成
-                if not pdf_path.exists() or pdf_path.stat().st_size == 0:
-                    raise RuntimeError("PDF生成失败或文件为空")
-                
-                print(f"PDF转换成功，文件大小: {pdf_path.stat().st_size} 字节")
-            else:
-                # Windows和MacOS使用docx2pdf
-                print(f"使用docx2pdf转换 {word_path} 到 {pdf_path}")
-                convert(word_path, pdf_path)
-                
-                # 验证PDF是否成功生成
-                if not pdf_path.exists() or pdf_path.stat().st_size == 0:
-                    raise RuntimeError("PDF生成失败或文件为空")
-                    
-                print(f"PDF转换成功，文件大小: {pdf_path.stat().st_size} 字节")
-            
-            return str(pdf_path)
-            
-        except Exception as e:
-            print(f"PDF转换异常: {str(e)}")
-            raise Exception(f"转换PDF失败: {str(e)}")
-
-    @staticmethod
-    def batch_convert(word_dir: Union[str, Path], pdf_dir: Union[str, Path] = None) -> list:
-        """
-        批量转换目录下的所有Word文档
-        
-        参数:
-            word_dir: 包含Word文档的目录路径
-            pdf_dir: 可选，PDF文件的输出目录。如果未指定，将使用与Word文档相同的目录
-            
-        返回:
-            生成的PDF文件路径列表
-        """
-        word_dir = Path(word_dir)
-        if pdf_dir:
-            pdf_dir = Path(pdf_dir)
-            pdf_dir.mkdir(parents=True, exist_ok=True)
-            
-        converted_files = []
-        
-        for word_file in word_dir.glob("*.docx"):
-            try:
-                if pdf_dir:
-                    pdf_path = pdf_dir / word_file.with_suffix('.pdf').name
-                else:
-                    pdf_path = word_file.with_suffix('.pdf')
-                    
-                pdf_file = WordToPdfConverter.convert_to_pdf(word_file, pdf_path)
-                converted_files.append(pdf_file)
-                
-            except Exception as e:
-                print(f"转换 {word_file} 失败: {str(e)}")
-                
-        return converted_files
-
-    @staticmethod
-    def convert_doc_to_pdf(doc, output_dir: Union[str, Path] = None) -> str:
-        """
-        将docx对象直接转换为PDF
-        
-        参数:
-            doc: python-docx的Document对象
-            output_dir: 可选，输出目录。如果未指定，将使用当前目录
-            
-        返回:
-            生成的PDF文件路径
-        """
-        try:
-            # 设置临时文件路径和输出路径
-            output_dir = Path(output_dir) if output_dir else Path.cwd()
-            output_dir.mkdir(parents=True, exist_ok=True)
-            
-            # 生成临时word文件
-            temp_docx = output_dir / f"temp_{datetime.now().strftime('%Y%m%d_%H%M%S')}.docx"
-            doc.save(temp_docx)
-            
-            # 转换为PDF
-            pdf_path = temp_docx.with_suffix('.pdf')
-            WordToPdfConverter.convert_to_pdf(temp_docx, pdf_path)
-            
-            # 删除临时word文件
-            temp_docx.unlink()
-            
-            return str(pdf_path)
-            
-        except Exception as e:
-            if temp_docx.exists():
-                temp_docx.unlink()
-            raise Exception(f"转换PDF失败: {str(e)}") 
--- a/crazy_functions/doc_fns/conversation_doc/word_doc.py
+++ b/crazy_functions/doc_fns/conversation_doc/word_doc.py
@@ -1,177 +0,0 @@
-import re
-from docx import Document
-from docx.shared import Cm, Pt
-from docx.enum.text import WD_PARAGRAPH_ALIGNMENT, WD_LINE_SPACING
-from docx.enum.style import WD_STYLE_TYPE
-from docx.oxml.ns import qn
-from datetime import datetime
-
-
-def convert_markdown_to_word(markdown_text):
-    # 0. 首先标准化所有换行符为\n
-    markdown_text = markdown_text.replace('\r\n', '\n').replace('\r', '\n')
-
-    # 1. 处理标题 - 支持更多级别的标题，使用更精确的正则
-    # 保留标题标记，以便后续处理时还能识别出标题级别
-    markdown_text = re.sub(r'^(#{1,6})\s+(.+?)(?:\s+#+)?$', r'\1 \2', markdown_text, flags=re.MULTILINE)
-
-    # 2. 处理粗体、斜体和加粗斜体
-    markdown_text = re.sub(r'\*\*\*(.+?)\*\*\*', r'\1', markdown_text)  # 加粗斜体
-    markdown_text = re.sub(r'\*\*(.+?)\*\*', r'\1', markdown_text)  # 加粗
-    markdown_text = re.sub(r'\*(.+?)\*', r'\1', markdown_text)  # 斜体
-    markdown_text = re.sub(r'_(.+?)_', r'\1', markdown_text)  # 下划线斜体
-    markdown_text = re.sub(r'__(.+?)__', r'\1', markdown_text)  # 下划线加粗
-
-    # 3. 处理代码块 - 不移除，而是简化格式
-    # 多行代码块
-    markdown_text = re.sub(r'```(?:\w+)?\n([\s\S]*?)```', r'[代码块]\n\1[/代码块]', markdown_text)
-    # 单行代码
-    markdown_text = re.sub(r'`([^`]+)`', r'[代码]\1[/代码]', markdown_text)
-
-    # 4. 处理列表 - 保留列表结构
-    # 匹配无序列表
-    markdown_text = re.sub(r'^(\s*)[-*+]\s+(.+?)$', r'\1• \2', markdown_text, flags=re.MULTILINE)
-
-    # 5. 处理Markdown链接
-    markdown_text = re.sub(r'\[([^\]]+)\]\(([^)]+?)\s*(?:"[^"]*")?\)', r'\1 (\2)', markdown_text)
-
-    # 6. 处理HTML链接
-    markdown_text = re.sub(r'<a href=[\'"]([^\'"]+)[\'"](?:\s+target=[\'"][^\'"]+[\'"])?>([^<]+)</a>', r'\2 (\1)',
-                           markdown_text)
-
-    # 7. 处理图片
-    markdown_text = re.sub(r'!\[([^\]]*)\]\([^)]+\)', r'[图片：\1]', markdown_text)
-
-    return markdown_text
-
-
-class WordFormatter:
-    """聊天记录Word文档生成器 - 符合中国政府公文格式规范(GB/T 9704-2012)"""
-
-    def __init__(self):
-        self.doc = Document()
-        self._setup_document()
-        self._create_styles()
-
-    def _setup_document(self):
-        """设置文档基本格式，包括页面设置和页眉"""
-        sections = self.doc.sections
-        for section in sections:
-            # 设置页面大小为A4
-            section.page_width = Cm(21)
-            section.page_height = Cm(29.7)
-            # 设置页边距
-            section.top_margin = Cm(3.7)  # 上边距37mm
-            section.bottom_margin = Cm(3.5)  # 下边距35mm
-            section.left_margin = Cm(2.8)  # 左边距28mm
-            section.right_margin = Cm(2.6)  # 右边距26mm
-            # 设置页眉页脚距离
-            section.header_distance = Cm(2.0)
-            section.footer_distance = Cm(2.0)
-
-            # 添加页眉
-            header = section.header
-            header_para = header.paragraphs[0]
-            header_para.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
-            header_run = header_para.add_run("GPT-Academic对话记录")
-            header_run.font.name = '仿宋'
-            header_run._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-            header_run.font.size = Pt(9)
-
-    def _create_styles(self):
-        """创建文档样式"""
-        # 创建正文样式
-        style = self.doc.styles.add_style('Normal_Custom', WD_STYLE_TYPE.PARAGRAPH)
-        style.font.name = '仿宋'
-        style._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-        style.font.size = Pt(12)  # 调整为12磅
-        style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-        style.paragraph_format.space_after = Pt(0)
-
-        # 创建问题样式
-        question_style = self.doc.styles.add_style('Question_Style', WD_STYLE_TYPE.PARAGRAPH)
-        question_style.font.name = '黑体'
-        question_style._element.rPr.rFonts.set(qn('w:eastAsia'), '黑体')
-        question_style.font.size = Pt(14)  # 调整为14磅
-        question_style.font.bold = True
-        question_style.paragraph_format.space_before = Pt(12)  # 减小段前距
-        question_style.paragraph_format.space_after = Pt(6)
-        question_style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-        question_style.paragraph_format.left_indent = Pt(0)  # 移除左缩进
-
-        # 创建回答样式
-        answer_style = self.doc.styles.add_style('Answer_Style', WD_STYLE_TYPE.PARAGRAPH)
-        answer_style.font.name = '仿宋'
-        answer_style._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-        answer_style.font.size = Pt(12)  # 调整为12磅
-        answer_style.paragraph_format.space_before = Pt(6)
-        answer_style.paragraph_format.space_after = Pt(12)
-        answer_style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-        answer_style.paragraph_format.left_indent = Pt(0)  # 移除左缩进
-
-        # 创建标题样式
-        title_style = self.doc.styles.add_style('Title_Custom', WD_STYLE_TYPE.PARAGRAPH)
-        title_style.font.name = '黑体'  # 改用黑体
-        title_style._element.rPr.rFonts.set(qn('w:eastAsia'), '黑体')
-        title_style.font.size = Pt(22)  # 调整为22磅
-        title_style.font.bold = True
-        title_style.paragraph_format.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
-        title_style.paragraph_format.space_before = Pt(0)
-        title_style.paragraph_format.space_after = Pt(24)
-        title_style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-
-        # 添加参考文献样式
-        ref_style = self.doc.styles.add_style('Reference_Style', WD_STYLE_TYPE.PARAGRAPH)
-        ref_style.font.name = '宋体'
-        ref_style._element.rPr.rFonts.set(qn('w:eastAsia'), '宋体')
-        ref_style.font.size = Pt(10.5)  # 参考文献使用小号字体
-        ref_style.paragraph_format.space_before = Pt(3)
-        ref_style.paragraph_format.space_after = Pt(3)
-        ref_style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.SINGLE
-        ref_style.paragraph_format.left_indent = Pt(21)
-        ref_style.paragraph_format.first_line_indent = Pt(-21)
-
-        # 添加参考文献标题样式
-        ref_title_style = self.doc.styles.add_style('Reference_Title_Style', WD_STYLE_TYPE.PARAGRAPH)
-        ref_title_style.font.name = '黑体'
-        ref_title_style._element.rPr.rFonts.set(qn('w:eastAsia'), '黑体')
-        ref_title_style.font.size = Pt(16)
-        ref_title_style.font.bold = True
-        ref_title_style.paragraph_format.space_before = Pt(24)
-        ref_title_style.paragraph_format.space_after = Pt(12)
-        ref_title_style.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE
-
-    def create_document(self,  history):
-        """写入聊天历史"""
-        # 添加标题
-        title_para = self.doc.add_paragraph(style='Title_Custom')
-        title_run = title_para.add_run('GPT-Academic 对话记录')
-
-        # 添加日期
-        date_para = self.doc.add_paragraph()
-        date_para.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
-        date_run = date_para.add_run(datetime.now().strftime('%Y年%m月%d日'))
-        date_run.font.name = '仿宋'
-        date_run._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋')
-        date_run.font.size = Pt(16)
-
-        self.doc.add_paragraph()  # 添加空行
-
-        # 添加对话内容
-        for i in range(0, len(history), 2):
-            question = history[i]
-            answer = convert_markdown_to_word(history[i + 1])
-
-            if question:
-                q_para = self.doc.add_paragraph(style='Question_Style')
-                q_para.add_run(f'问题 {i//2 + 1}：').bold = True
-                q_para.add_run(str(question))
-
-            if answer:
-                a_para = self.doc.add_paragraph(style='Answer_Style')
-                a_para.add_run(f'回答 {i//2 + 1}：').bold = True
-                a_para.add_run(str(answer))
-
-
-        return self.doc
-
--- a/crazy_functions/doc_fns/read_fns/init.py
+++ b/crazy_functions/doc_fns/read_fns/init.py
--- a/crazy_functions/doc_fns/read_fns/docx_reader.py
+++ b/crazy_functions/doc_fns/read_fns/docx_reader.py
@@ -1,6 +0,0 @@
-import nltk
-nltk.data.path.append('~/nltk_data')
-nltk.download('averaged_perceptron_tagger', download_dir='~/nltk_data',
-             )
-nltk.download('punkt', download_dir='~/nltk_data',
-               )
--- a/crazy_functions/doc_fns/read_fns/excel_reader.py
+++ b/crazy_functions/doc_fns/read_fns/excel_reader.py
@@ -1,286 +0,0 @@
-from __future__ import annotations
-
-import pandas as pd
-import numpy as np
-from pathlib import Path
-from typing import Optional, List, Set, Dict, Union, Iterator, Tuple
-from dataclasses import dataclass, field
-import logging
-from concurrent.futures import ThreadPoolExecutor, as_completed
-import chardet
-from functools import lru_cache
-import os
-
-
-@dataclass
-class ExtractorConfig:
-    """提取器配置类"""
-    encoding: str = 'auto'
-    na_filter: bool = True
-    skip_blank_lines: bool = True
-    chunk_size: int = 10000
-    max_workers: int = 4
-    preserve_format: bool = True
-    read_all_sheets: bool = True  # 新增：是否读取所有工作表
-    text_cleanup: Dict[str, bool] = field(default_factory=lambda: {
-        'remove_extra_spaces': True,
-        'normalize_whitespace': False,
-        'remove_special_chars': False,
-        'lowercase': False
-    })
-
-
-class ExcelTextExtractor:
-    """增强的Excel格式文件文本内容提取器"""
-
-    SUPPORTED_EXTENSIONS: Set[str] = {
-        '.xlsx', '.xls', '.csv', '.tsv', '.xlsm', '.xltx', '.xltm', '.ods'
-    }
-
-    def __init__(self, config: Optional[ExtractorConfig] = None):
-        self.config = config or ExtractorConfig()
-        self._setup_logging()
-        self._detect_encoding = lru_cache(maxsize=128)(self._detect_encoding)
-
-    def _setup_logging(self) -> None:
-        """配置日志记录器"""
-        logging.basicConfig(
-            level=logging.INFO,
-            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
-        )
-        self.logger = logging.getLogger(__name__)
-        fh = logging.FileHandler('excel_extractor.log')
-        fh.setLevel(logging.ERROR)
-        self.logger.addHandler(fh)
-
-    def _detect_encoding(self, file_path: Path) -> str:
-        if self.config.encoding != 'auto':
-            return self.config.encoding
-
-        try:
-            with open(file_path, 'rb') as f:
-                raw_data = f.read(10000)
-                result = chardet.detect(raw_data)
-                return result['encoding'] or 'utf-8'
-        except Exception as e:
-            self.logger.warning(f"Encoding detection failed: {e}. Using utf-8")
-            return 'utf-8'
-
-    def _validate_file(self, file_path: Union[str, Path]) -> Path:
-        path = Path(file_path).resolve()
-
-        if not path.exists():
-            raise ValueError(f"File not found: {path}")
-
-        if not path.is_file():
-            raise ValueError(f"Not a file: {path}")
-
-        if not os.access(path, os.R_OK):
-            raise PermissionError(f"No read permission: {path}")
-
-        if path.suffix.lower() not in self.SUPPORTED_EXTENSIONS:
-            raise ValueError(
-                f"Unsupported format: {path.suffix}. "
-                f"Supported: {', '.join(sorted(self.SUPPORTED_EXTENSIONS))}"
-            )
-
-        return path
-
-    def _format_value(self, value: Any) -> str:
-        if pd.isna(value) or value is None:
-            return ''
-        if isinstance(value, (int, float)):
-            return str(value)
-        return str(value).strip()
-
-    def _process_chunk(self, chunk: pd.DataFrame, columns: Optional[List[str]] = None, sheet_name: str = '') -> str:
-        """处理数据块，新增sheet_name参数"""
-        try:
-            if columns:
-                chunk = chunk[columns]
-
-            if self.config.preserve_format:
-                formatted_chunk = chunk.applymap(self._format_value)
-                rows = []
-
-                # 添加工作表名称作为标题
-                if sheet_name:
-                    rows.append(f"[Sheet: {sheet_name}]")
-
-                # 添加表头
-                headers = [str(col) for col in formatted_chunk.columns]
-                rows.append('\t'.join(headers))
-
-                # 添加数据行
-                for _, row in formatted_chunk.iterrows():
-                    rows.append('\t'.join(row.values))
-
-                return '\n'.join(rows)
-            else:
-                flat_values = (
-                    chunk.astype(str)
-                    .replace({'nan': '', 'None': '', 'NaN': ''})
-                    .values.flatten()
-                )
-                return ' '.join(v for v in flat_values if v)
-
-        except Exception as e:
-            self.logger.error(f"Error processing chunk: {e}")
-            raise
-
-    def _read_file(self, file_path: Path) -> Union[pd.DataFrame, Iterator[pd.DataFrame], Dict[str, pd.DataFrame]]:
-        """读取文件，支持多工作表"""
-        try:
-            encoding = self._detect_encoding(file_path)
-
-            if file_path.suffix.lower() in {'.csv', '.tsv'}:
-                sep = '\t' if file_path.suffix.lower() == '.tsv' else ','
-
-                # 对大文件使用分块读取
-                if file_path.stat().st_size > self.config.chunk_size * 1024:
-                    return pd.read_csv(
-                        file_path,
-                        encoding=encoding,
-                        na_filter=self.config.na_filter,
-                        skip_blank_lines=self.config.skip_blank_lines,
-                        sep=sep,
-                        chunksize=self.config.chunk_size,
-                        on_bad_lines='warn'
-                    )
-                else:
-                    return pd.read_csv(
-                        file_path,
-                        encoding=encoding,
-                        na_filter=self.config.na_filter,
-                        skip_blank_lines=self.config.skip_blank_lines,
-                        sep=sep
-                    )
-            else:
-                # Excel文件处理，支持多工作表
-                if self.config.read_all_sheets:
-                    # 读取所有工作表
-                    return pd.read_excel(
-                        file_path,
-                        na_filter=self.config.na_filter,
-                        keep_default_na=self.config.na_filter,
-                        engine='openpyxl',
-                        sheet_name=None  # None表示读取所有工作表
-                    )
-                else:
-                    # 只读取第一个工作表
-                    return pd.read_excel(
-                        file_path,
-                        na_filter=self.config.na_filter,
-                        keep_default_na=self.config.na_filter,
-                        engine='openpyxl',
-                        sheet_name=0  # 读取第一个工作表
-                    )
-
-        except Exception as e:
-            self.logger.error(f"Error reading file {file_path}: {e}")
-            raise
-
-    def extract_text(
-            self,
-            file_path: Union[str, Path],
-            columns: Optional[List[str]] = None,
-            separator: str = '\n'
-    ) -> str:
-        """提取文本，支持多工作表"""
-        try:
-            path = self._validate_file(file_path)
-            self.logger.info(f"Processing: {path}")
-
-            reader = self._read_file(path)
-            texts = []
-
-            # 处理Excel多工作表
-            if isinstance(reader, dict):
-                for sheet_name, df in reader.items():
-                    sheet_text = self._process_chunk(df, columns, sheet_name)
-                    if sheet_text:
-                        texts.append(sheet_text)
-                return separator.join(texts)
-
-            # 处理单个DataFrame
-            elif isinstance(reader, pd.DataFrame):
-                return self._process_chunk(reader, columns)
-
-            # 处理DataFrame迭代器
-            else:
-                with ThreadPoolExecutor(max_workers=self.config.max_workers) as executor:
-                    futures = {
-                        executor.submit(self._process_chunk, chunk, columns): i
-                        for i, chunk in enumerate(reader)
-                    }
-
-                    chunk_texts = []
-                    for future in as_completed(futures):
-                        try:
-                            text = future.result()
-                            if text:
-                                chunk_texts.append((futures[future], text))
-                        except Exception as e:
-                            self.logger.error(f"Error in chunk {futures[future]}: {e}")
-
-                    # 按块的顺序排序
-                    chunk_texts.sort(key=lambda x: x[0])
-                    texts = [text for _, text in chunk_texts]
-
-                # 合并文本，保留格式
-                if texts and self.config.preserve_format:
-                    result = texts[0]  # 第一块包含表头
-                    if len(texts) > 1:
-                        # 跳过后续块的表头行
-                        for text in texts[1:]:
-                            result += '\n' + '\n'.join(text.split('\n')[1:])
-                    return result
-                else:
-                    return separator.join(texts)
-
-        except Exception as e:
-            self.logger.error(f"Extraction failed: {e}")
-            raise
-
-    @staticmethod
-    def get_supported_formats() -> List[str]:
-        """获取支持的文件格式列表"""
-        return sorted(ExcelTextExtractor.SUPPORTED_EXTENSIONS)
-
-
-def main():
-    """主函数：演示用法"""
-    config = ExtractorConfig(
-        encoding='auto',
-        preserve_format=True,
-        read_all_sheets=True,  # 启用多工作表读取
-        text_cleanup={
-            'remove_extra_spaces': True,
-            'normalize_whitespace': False,
-            'remove_special_chars': False,
-            'lowercase': False
-        }
-    )
-
-    extractor = ExcelTextExtractor(config)
-
-    try:
-        sample_file = 'example.xlsx'
-        if Path(sample_file).exists():
-            text = extractor.extract_text(
-                sample_file,
-                columns=['title', 'content']
-            )
-            print("提取的文本:")
-            print(text)
-        else:
-            print(f"示例文件 {sample_file} 不存在")
-
-        print("\n支持的格式:", extractor.get_supported_formats())
-
-    except Exception as e:
-        print(f"错误: {e}")
-
-
-if __name__ == "__main__":
-    main()
--- a/crazy_functions/doc_fns/read_fns/markitdown/markdown_reader.py
+++ b/crazy_functions/doc_fns/read_fns/markitdown/markdown_reader.py
@@ -1,359 +0,0 @@
-from __future__ import annotations
-
-from pathlib import Path
-from typing import Optional, Set, Dict, Union, List
-from dataclasses import dataclass, field
-import logging
-import os
-import re
-import subprocess
-import tempfile
-import shutil
-
-@dataclass
-class MarkdownConverterConfig:
-    """PDF 到 Markdown 转换器配置类
-
-    Attributes:
-        extract_images: 是否提取图片
-        extract_tables: 是否尝试保留表格结构
-        extract_code_blocks: 是否识别代码块
-        extract_math: 是否转换数学公式
-        output_dir: 输出目录路径
-        image_dir: 图片保存目录路径
-        paragraph_separator: 段落之间的分隔符
-        text_cleanup: 文本清理选项字典
-        docintel_endpoint: Document Intelligence端点URL (可选)
-        enable_plugins: 是否启用插件
-        llm_client: LLM客户端对象 (例如OpenAI client)
-        llm_model: 要使用的LLM模型名称
-    """
-    extract_images: bool = True
-    extract_tables: bool = True
-    extract_code_blocks: bool = True
-    extract_math: bool = True
-    output_dir: str = ""
-    image_dir: str = "images"
-    paragraph_separator: str = '\n\n'
-    text_cleanup: Dict[str, bool] = field(default_factory=lambda: {
-        'remove_extra_spaces': True,
-        'normalize_whitespace': True,
-        'remove_special_chars': False,
-        'lowercase': False
-    })
-    docintel_endpoint: str = ""
-    enable_plugins: bool = False
-    llm_client: Optional[object] = None
-    llm_model: str = ""
-
-
-class MarkdownConverter:
-    """PDF 到 Markdown 转换器
-
-    使用 markitdown 库实现 PDF 到 Markdown 的转换，支持多种配置选项。
-    """
-
-    SUPPORTED_EXTENSIONS: Set[str] = {
-        '.pdf',
-    }
-
-    def __init__(self, config: Optional[MarkdownConverterConfig] = None):
-        """初始化转换器
-
-        Args:
-            config: 转换器配置对象，如果为None则使用默认配置
-        """
-        self.config = config or MarkdownConverterConfig()
-        self._setup_logging()
-        
-        # 检查是否安装了 markitdown
-        self._check_markitdown_installation()
-
-    def _setup_logging(self) -> None:
-        """配置日志记录器"""
-        logging.basicConfig(
-            level=logging.INFO,
-            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
-        )
-        self.logger = logging.getLogger(__name__)
-
-        # 添加文件处理器
-        fh = logging.FileHandler('markdown_converter.log')
-        fh.setLevel(logging.ERROR)
-        self.logger.addHandler(fh)
-    
-    def _check_markitdown_installation(self) -> None:
-        """检查是否安装了 markitdown"""
-        try:
-            # 尝试导入 markitdown 库
-            from markitdown import MarkItDown
-            self.logger.info("markitdown 库已安装")
-        except ImportError:
-            self.logger.warning("markitdown 库未安装，尝试安装...")
-            try:
-                subprocess.check_call(["pip", "install", "markitdown"])
-                self.logger.info("markitdown 库安装成功")
-                from markitdown import MarkItDown
-            except (subprocess.SubprocessError, ImportError):
-                self.logger.error("无法安装 markitdown 库，请手动安装")
-                self.markitdown_available = False
-                return
-        
-        self.markitdown_available = True
-
-    def _validate_file(self, file_path: Union[str, Path], max_size_mb: int = 100) -> Path:
-        """验证文件
-
-        Args:
-            file_path: 文件路径
-            max_size_mb: 允许的最大文件大小(MB)
-
-        Returns:
-            Path: 验证后的Path对象
-
-        Raises:
-            ValueError: 文件不存在、格式不支持或大小超限
-            PermissionError: 没有读取权限
-        """
-        path = Path(file_path).resolve()
-
-        if not path.exists():
-            raise ValueError(f"文件不存在: {path}")
-
-        if not path.is_file():
-            raise ValueError(f"不是一个文件: {path}")
-
-        if not os.access(path, os.R_OK):
-            raise PermissionError(f"没有读取权限: {path}")
-
-        file_size_mb = path.stat().st_size / (1024 * 1024)
-        if file_size_mb > max_size_mb:
-            raise ValueError(
-                f"文件大小 ({file_size_mb:.1f}MB) 超过限制 {max_size_mb}MB"
-            )
-
-        if path.suffix.lower() not in self.SUPPORTED_EXTENSIONS:
-            raise ValueError(
-                f"不支持的格式: {path.suffix}. "
-                f"支持的格式: {', '.join(sorted(self.SUPPORTED_EXTENSIONS))}"
-            )
-
-        return path
-
-    def _cleanup_text(self, text: str) -> str:
-        """清理文本
-
-        Args:
-            text: 原始文本
-
-        Returns:
-            str: 清理后的文本
-        """
-        if self.config.text_cleanup['remove_extra_spaces']:
-            text = ' '.join(text.split())
-
-        if self.config.text_cleanup['normalize_whitespace']:
-            text = text.replace('\t', ' ').replace('\r', '\n')
-
-        if self.config.text_cleanup['lowercase']:
-            text = text.lower()
-
-        return text.strip()
-
-    @staticmethod
-    def get_supported_formats() -> List[str]:
-        """获取支持的文件格式列表"""
-        return sorted(MarkdownConverter.SUPPORTED_EXTENSIONS)
-
-    def convert_to_markdown(
-            self,
-            file_path: Union[str, Path],
-            output_path: Optional[Union[str, Path]] = None
-    ) -> str:
-        """将 PDF 转换为 Markdown
-
-        Args:
-            file_path: PDF 文件路径
-            output_path: 输出 Markdown 文件路径，如果为 None 则返回内容而不保存
-
-        Returns:
-            str: 转换后的 Markdown 内容
-
-        Raises:
-            Exception: 转换过程中的错误
-        """
-        try:
-            path = self._validate_file(file_path)
-            self.logger.info(f"处理: {path}")
-
-            if not self.markitdown_available:
-                raise ImportError("markitdown 库未安装，无法进行转换")
-
-            # 导入 markitdown 库
-            from markitdown import MarkItDown
-
-            # 准备输出目录
-            if output_path:
-                output_path = Path(output_path)
-                output_dir = output_path.parent
-                output_dir.mkdir(parents=True, exist_ok=True)
-            else:
-                # 创建临时目录作为输出目录
-                temp_dir = tempfile.mkdtemp()
-                output_dir = Path(temp_dir)
-                output_path = output_dir / f"{path.stem}.md"
-
-            # 图片目录
-            image_dir = output_dir / self.config.image_dir
-            image_dir.mkdir(parents=True, exist_ok=True)
-
-            # 创建 MarkItDown 实例并进行转换
-            if self.config.docintel_endpoint:
-                md = MarkItDown(docintel_endpoint=self.config.docintel_endpoint)
-            elif self.config.llm_client and self.config.llm_model:
-                md = MarkItDown(
-                    enable_plugins=self.config.enable_plugins,
-                    llm_client=self.config.llm_client,
-                    llm_model=self.config.llm_model
-                )
-            else:
-                md = MarkItDown(enable_plugins=self.config.enable_plugins)
-            
-            # 执行转换
-            result = md.convert(str(path))
-            markdown_content = result.text_content
-            
-            # 清理文本
-            markdown_content = self._cleanup_text(markdown_content)
-            
-            # 如果需要保存到文件
-            if output_path:
-                with open(output_path, 'w', encoding='utf-8') as f:
-                    f.write(markdown_content)
-                self.logger.info(f"转换成功，输出到: {output_path}")
-            
-            return markdown_content
-
-        except Exception as e:
-            self.logger.error(f"转换失败: {e}")
-            raise
-        finally:
-            # 如果使用了临时目录且没有指定输出路径，则清理临时目录
-            if 'temp_dir' in locals() and not output_path:
-                shutil.rmtree(temp_dir, ignore_errors=True)
-
-    def convert_to_markdown_and_save(
-            self,
-            file_path: Union[str, Path],
-            output_path: Union[str, Path]
-    ) -> Path:
-        """将 PDF 转换为 Markdown 并保存到指定路径
-
-        Args:
-            file_path: PDF 文件路径
-            output_path: 输出 Markdown 文件路径
-
-        Returns:
-            Path: 输出文件的 Path 对象
-
-        Raises:
-            Exception: 转换过程中的错误
-        """
-        self.convert_to_markdown(file_path, output_path)
-        return Path(output_path)
-    
-    def batch_convert(
-            self, 
-            file_paths: List[Union[str, Path]], 
-            output_dir: Union[str, Path]
-    ) -> List[Path]:
-        """批量转换多个 PDF 文件为 Markdown
-
-        Args:
-            file_paths: PDF 文件路径列表
-            output_dir: 输出目录路径
-
-        Returns:
-            List[Path]: 输出文件路径列表
-
-        Raises:
-            Exception: 转换过程中的错误
-        """
-        output_dir = Path(output_dir)
-        output_dir.mkdir(parents=True, exist_ok=True)
-        
-        output_paths = []
-        for file_path in file_paths:
-            path = Path(file_path)
-            output_path = output_dir / f"{path.stem}.md"
-            
-            try:
-                self.convert_to_markdown(file_path, output_path)
-                output_paths.append(output_path)
-                self.logger.info(f"成功转换: {path} -> {output_path}")
-            except Exception as e:
-                self.logger.error(f"转换失败 {path}: {e}")
-        
-        return output_paths
-
-
-def main():
-    """主函数：演示用法"""
-    # 配置
-    config = MarkdownConverterConfig(
-        extract_images=True,
-        extract_tables=True,
-        extract_code_blocks=True,
-        extract_math=True,
-        enable_plugins=False,
-        text_cleanup={
-            'remove_extra_spaces': True,
-            'normalize_whitespace': True,
-            'remove_special_chars': False,
-            'lowercase': False
-        }
-    )
-
-    # 创建转换器
-    converter = MarkdownConverter(config)
-
-    # 使用示例
-    try:
-        # 替换为实际的文件路径
-        sample_file = './crazy_functions/doc_fns/read_fns/paper/2501.12599v1.pdf'
-        if Path(sample_file).exists():
-            # 转换为 Markdown 并打印内容
-            markdown_content = converter.convert_to_markdown(sample_file)
-            print("转换后的 Markdown 内容:")
-            print(markdown_content[:500] + "...")  # 只打印前500个字符
-            
-            # 转换并保存到文件
-            output_file = f"./output_{Path(sample_file).stem}.md"
-            output_path = converter.convert_to_markdown_and_save(sample_file, output_file)
-            print(f"\n已保存到: {output_path}")
-            
-            # 使用LLM增强的示例 (需要添加相应的导入和配置)
-            # try:
-            #     from openai import OpenAI
-            #     client = OpenAI()
-            #     llm_config = MarkdownConverterConfig(
-            #         llm_client=client,
-            #         llm_model="gpt-4o"
-            #     )
-            #     llm_converter = MarkdownConverter(llm_config)
-            #     llm_result = llm_converter.convert_to_markdown("example.jpg")
-            #     print("LLM增强的结果:")
-            #     print(llm_result[:500] + "...")
-            # except ImportError:
-            #     print("未安装OpenAI库，跳过LLM示例")
-        else:
-            print(f"示例文件 {sample_file} 不存在")
-
-        print("\n支持的格式:", converter.get_supported_formats())
-
-    except Exception as e:
-        print(f"错误: {e}")
-
-
-if __name__ == "__main__":
-    main() 
--- a/crazy_functions/doc_fns/read_fns/unstructured_all/init.py
+++ b/crazy_functions/doc_fns/read_fns/unstructured_all/init.py
--- a/crazy_functions/doc_fns/read_fns/unstructured_all/paper_metadata_extractor.py
+++ b/crazy_functions/doc_fns/read_fns/unstructured_all/paper_metadata_extractor.py
@@ -1,493 +0,0 @@
-from __future__ import annotations
-
-from pathlib import Path
-from typing import Optional, Set, Dict, Union, List
-from dataclasses import dataclass, field
-import logging
-import os
-import re
-
-from unstructured.partition.auto import partition
-from unstructured.documents.elements import (
-    Text, Title, NarrativeText, ListItem, Table,
-    Footer, Header, PageBreak, Image, Address
-)
-
-
-@dataclass
-class PaperMetadata:
-    """论文元数据类"""
-    title: str = ""
-    authors: List[str] = field(default_factory=list)
-    affiliations: List[str] = field(default_factory=list)
-    journal: str = ""
-    volume: str = ""
-    issue: str = ""
-    year: str = ""
-    doi: str = ""
-    date: str = ""
-    publisher: str = ""
-    conference: str = ""
-    abstract: str = ""
-    keywords: List[str] = field(default_factory=list)
-
-
-@dataclass
-class ExtractorConfig:
-    """元数据提取器配置类"""
-    paragraph_separator: str = '\n\n'
-    text_cleanup: Dict[str, bool] = field(default_factory=lambda: {
-        'remove_extra_spaces': True,
-        'normalize_whitespace': True,
-        'remove_special_chars': False,
-        'lowercase': False
-    })
-
-
-class PaperMetadataExtractor:
-    """论文元数据提取器
-    
-    使用unstructured库从多种文档格式中提取论文的标题、作者、摘要等元数据信息。
-    """
-
-    SUPPORTED_EXTENSIONS: Set[str] = {
-        '.pdf', '.docx', '.doc', '.txt', '.ppt', '.pptx',
-        '.xlsx', '.xls', '.md', '.org', '.odt', '.rst',
-        '.rtf', '.epub', '.html', '.xml', '.json'
-    }
-
-    # 定义论文各部分的关键词模式
-    SECTION_PATTERNS = {
-        'abstract': r'\b(摘要|abstract|summary|概要|résumé|zusammenfassung|аннотация)\b',
-        'keywords': r'\b(关键词|keywords|key\s+words|关键字|mots[- ]clés|schlüsselwörter|ключевые слова)\b',
-    }
-
-    def __init__(self, config: Optional[ExtractorConfig] = None):
-        """初始化提取器
-        
-        Args:
-            config: 提取器配置对象，如果为None则使用默认配置
-        """
-        self.config = config or ExtractorConfig()
-        self._setup_logging()
-
-    def _setup_logging(self) -> None:
-        """配置日志记录器"""
-        logging.basicConfig(
-            level=logging.INFO,
-            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
-        )
-        self.logger = logging.getLogger(__name__)
-
-        # 添加文件处理器
-        fh = logging.FileHandler('paper_metadata_extractor.log')
-        fh.setLevel(logging.ERROR)
-        self.logger.addHandler(fh)
-
-    def _validate_file(self, file_path: Union[str, Path], max_size_mb: int = 100) -> Path:
-        """验证文件
-        
-        Args:
-            file_path: 文件路径
-            max_size_mb: 允许的最大文件大小(MB)
-            
-        Returns:
-            Path: 验证后的Path对象
-            
-        Raises:
-            ValueError: 文件不存在、格式不支持或大小超限
-            PermissionError: 没有读取权限
-        """
-        path = Path(file_path).resolve()
-
-        if not path.exists():
-            raise ValueError(f"文件不存在: {path}")
-
-        if not path.is_file():
-            raise ValueError(f"不是文件: {path}")
-
-        if not os.access(path, os.R_OK):
-            raise PermissionError(f"没有读取权限: {path}")
-
-        file_size_mb = path.stat().st_size / (1024 * 1024)
-        if file_size_mb > max_size_mb:
-            raise ValueError(
-                f"文件大小 ({file_size_mb:.1f}MB) 超过限制 {max_size_mb}MB"
-            )
-
-        if path.suffix.lower() not in self.SUPPORTED_EXTENSIONS:
-            raise ValueError(
-                f"不支持的文件格式: {path.suffix}. "
-                f"支持的格式: {', '.join(sorted(self.SUPPORTED_EXTENSIONS))}"
-            )
-
-        return path
-
-    def _cleanup_text(self, text: str) -> str:
-        """清理文本
-        
-        Args:
-            text: 原始文本
-            
-        Returns:
-            str: 清理后的文本
-        """
-        if self.config.text_cleanup['remove_extra_spaces']:
-            text = ' '.join(text.split())
-
-        if self.config.text_cleanup['normalize_whitespace']:
-            text = text.replace('\t', ' ').replace('\r', '\n')
-
-        if self.config.text_cleanup['lowercase']:
-            text = text.lower()
-
-        return text.strip()
-
-    @staticmethod
-    def get_supported_formats() -> List[str]:
-        """获取支持的文件格式列表"""
-        return sorted(PaperMetadataExtractor.SUPPORTED_EXTENSIONS)
-
-    def extract_metadata(self, file_path: Union[str, Path], strategy: str = "fast") -> PaperMetadata:
-        """提取论文元数据
-        
-        Args:
-            file_path: 文件路径
-            strategy: 提取策略 ("fast" 或 "accurate")
-            
-        Returns:
-            PaperMetadata: 提取的论文元数据
-            
-        Raises:
-            Exception: 提取过程中的错误
-        """
-        try:
-            path = self._validate_file(file_path)
-            self.logger.info(f"正在处理: {path}")
-
-            # 使用unstructured库分解文档
-            elements = partition(
-                str(path),
-                strategy=strategy,
-                include_metadata=True,
-                nlp=False,
-            )
-
-            # 提取元数据
-            metadata = PaperMetadata()
-            
-            # 提取标题和作者
-            self._extract_title_and_authors(elements, metadata)
-            
-            # 提取摘要和关键词
-            self._extract_abstract_and_keywords(elements, metadata)
-            
-            # 提取其他元数据
-            self._extract_additional_metadata(elements, metadata)
-            
-            return metadata
-
-        except Exception as e:
-            self.logger.error(f"元数据提取失败: {e}")
-            raise
-
-    def _extract_title_and_authors(self, elements, metadata: PaperMetadata) -> None:
-        """从文档中提取标题和作者信息 - 改进版"""
-        # 收集所有潜在的标题候选
-        title_candidates = []
-        all_text = []
-        raw_text = []
-        
-        # 首先收集文档前30个元素的文本，用于辅助判断
-        for i, element in enumerate(elements[:30]):
-            if isinstance(element, (Text, Title, NarrativeText)):
-                text = str(element).strip()
-                if text:
-                    all_text.append(text)
-                    raw_text.append(text)
-        
-        # 打印出原始文本，用于调试
-        print("原始文本前10行:")
-        for i, text in enumerate(raw_text[:10]):
-            print(f"{i}: {text}")
-        
-        # 1. 尝试查找连续的标题片段并合并它们
-        i = 0
-        while i < len(all_text) - 1:
-            current = all_text[i]
-            next_text = all_text[i + 1]
-            
-            # 检查是否存在标题分割情况：一行以冒号结尾，下一行像是标题的延续
-            if current.endswith(':') and len(current) < 50 and len(next_text) > 5 and next_text[0].isupper():
-                # 合并这两行文本
-                combined_title = f"{current} {next_text}"
-                # 查找合并前的文本并替换
-                all_text[i] = combined_title
-                all_text.pop(i + 1)
-                # 给合并后的标题很高的分数
-                title_candidates.append((combined_title, 15, i))
-            else:
-                i += 1
-        
-        # 2. 首先尝试从标题元素中查找
-        for i, element in enumerate(elements[:15]):  # 只检查前15个元素
-            if isinstance(element, Title):
-                title_text = str(element).strip()
-                # 排除常见的非标题内容
-                if title_text.lower() not in ['abstract', '摘要', 'introduction', '引言']:
-                    # 计算标题分数（越高越可能是真正的标题）
-                    score = self._evaluate_title_candidate(title_text, i, element)
-                    title_candidates.append((title_text, score, i))
-        
-        # 3. 特别处理常见的论文标题格式
-        for i, text in enumerate(all_text[:15]):
-            # 特别检查"KIMI K1.5:"类型的前缀标题
-            if re.match(r'^[A-Z][A-Z0-9\s\.]+(\s+K\d+(\.\d+)?)?:', text):
-                score = 12  # 给予很高的分数
-                title_candidates.append((text, score, i))
-                
-                # 如果下一行也是全大写，很可能是标题的延续
-                if i+1 < len(all_text) and all_text[i+1].isupper() and len(all_text[i+1]) > 10:
-                    combined_title = f"{text} {all_text[i+1]}"
-                    title_candidates.append((combined_title, 15, i))  # 给合并标题更高分数
-            
-            # 匹配全大写的标题行
-            elif text.isupper() and len(text) > 10 and len(text) < 100:
-                score = 10 - i * 0.5  # 越靠前越可能是标题
-                title_candidates.append((text, score, i))
-        
-        # 对标题候选按分数排序并选取最佳候选
-        if title_candidates:
-            title_candidates.sort(key=lambda x: x[1], reverse=True)
-            metadata.title = title_candidates[0][0]
-            title_position = title_candidates[0][2]
-            print(f"所有标题候选: {title_candidates[:3]}")
-        else:
-            # 如果没有找到合适的标题，使用一个备选策略
-            for text in all_text[:10]:
-                if text.isupper() and len(text) > 10 and len(text) < 200:  # 大写且适当长度的文本
-                    metadata.title = text
-                    break
-            title_position = 0
-        
-        # 提取作者信息 - 改进后的作者提取逻辑
-        author_candidates = []
-        
-        # 1. 特别处理"TECHNICAL REPORT OF"之后的行，通常是作者或团队
-        for i, text in enumerate(all_text):
-            if "TECHNICAL REPORT" in text.upper() and i+1 < len(all_text):
-                team_text = all_text[i+1].strip()
-                if re.search(r'\b(team|group|lab)\b', team_text, re.IGNORECASE):
-                    author_candidates.append((team_text, 15))
-        
-        # 2. 查找包含Team的文本
-        for text in all_text[:20]:
-            if "Team" in text and len(text) < 30:
-                # 这很可能是团队名
-                author_candidates.append((text, 12))
-        
-        # 添加作者到元数据
-        if author_candidates:
-            # 按分数排序
-            author_candidates.sort(key=lambda x: x[1], reverse=True)
-            
-            # 去重
-            seen_authors = set()
-            for author, _ in author_candidates:
-                if author.lower() not in seen_authors and not author.isdigit():
-                    seen_authors.add(author.lower())
-                    metadata.authors.append(author)
-        
-        # 如果没有找到作者，尝试查找隶属机构信息中的团队名称
-        if not metadata.authors:
-            for text in all_text[:20]:
-                if re.search(r'\b(team|group|lab|laboratory|研究组|团队)\b', text, re.IGNORECASE):
-                    if len(text) < 50:  # 避免太长的文本
-                        metadata.authors.append(text.strip())
-                        break
-        
-        # 提取隶属机构信息
-        for i, element in enumerate(elements[:30]):
-            element_text = str(element).strip()
-            if re.search(r'(university|institute|department|school|laboratory|college|center|centre|\d{5,}|^[a-zA-Z]+@|学院|大学|研究所|研究院)', element_text, re.IGNORECASE):
-                # 可能是隶属机构
-                if element_text not in metadata.affiliations and len(element_text) > 10:
-                    metadata.affiliations.append(element_text)
-
-    def _evaluate_title_candidate(self, text, position, element):
-        """评估标题候选项的可能性分数"""
-        score = 0
-        
-        # 位置因素：越靠前越可能是标题
-        score += max(0, 10 - position) * 0.5
-        
-        # 长度因素：标题通常不会太短也不会太长
-        if 10 <= len(text) <= 150:
-            score += 3
-        elif len(text) < 10:
-            score -= 2
-        elif len(text) > 150:
-            score -= 3
-        
-        # 格式因素
-        if text.isupper():  # 全大写可能是标题
-            score += 2
-        if re.match(r'^[A-Z]', text):  # 首字母大写
-            score += 1
-        if ':' in text:  # 标题常包含冒号
-            score += 1.5
-        
-        # 内容因素
-        if re.search(r'\b(scaling|learning|model|approach|method|system|framework|analysis)\b', text.lower()):
-            score += 2  # 包含常见的学术论文关键词
-            
-        # 避免误判
-        if re.match(r'^\d+$', text):  # 纯数字
-            score -= 10
-        if re.search(r'^(http|www|doi)', text.lower()):  # URL或DOI
-            score -= 5
-        if len(text.split()) <= 2 and len(text) < 15:  # 太短的短语
-            score -= 3
-            
-        # 元数据因素(如果有)
-        if hasattr(element, 'metadata') and element.metadata:
-            # 修复：正确处理ElementMetadata对象
-            try:
-                # 尝试通过getattr安全地获取属性
-                font_size = getattr(element.metadata, 'font_size', None)
-                if font_size is not None and font_size > 14:  # 假设标准字体大小是12
-                    score += 3
-                    
-                font_weight = getattr(element.metadata, 'font_weight', None)
-                if font_weight == 'bold':
-                    score += 2  # 粗体加分
-            except (AttributeError, TypeError):
-                # 如果metadata的访问方式不正确，尝试其他可能的访问方式
-                try:
-                    metadata_dict = element.metadata.__dict__ if hasattr(element.metadata, '__dict__') else {}
-                    if 'font_size' in metadata_dict and metadata_dict['font_size'] > 14:
-                        score += 3
-                    if 'font_weight' in metadata_dict and metadata_dict['font_weight'] == 'bold':
-                        score += 2
-                except Exception:
-                    # 如果所有尝试都失败，忽略元数据处理
-                    pass
-        
-        return score
-
-    def _extract_abstract_and_keywords(self, elements, metadata: PaperMetadata) -> None:
-        """从文档中提取摘要和关键词"""
-        abstract_found = False
-        keywords_found = False
-        abstract_text = []
-        
-        for i, element in enumerate(elements):
-            element_text = str(element).strip().lower()
-            
-            # 寻找摘要部分
-            if not abstract_found and (
-                isinstance(element, Title) and 
-                re.search(self.SECTION_PATTERNS['abstract'], element_text, re.IGNORECASE)
-            ):
-                abstract_found = True
-                continue
-            
-            # 如果找到摘要部分，收集内容直到遇到关键词部分或新章节
-            if abstract_found and not keywords_found:
-                # 检查是否遇到关键词部分或新章节
-                if (
-                    isinstance(element, Title) or 
-                    re.search(self.SECTION_PATTERNS['keywords'], element_text, re.IGNORECASE) or
-                    re.match(r'\b(introduction|引言|method|方法)\b', element_text, re.IGNORECASE)
-                ):
-                    keywords_found = re.search(self.SECTION_PATTERNS['keywords'], element_text, re.IGNORECASE)
-                    abstract_found = False  # 停止收集摘要
-                else:
-                    # 收集摘要文本
-                    if isinstance(element, (Text, NarrativeText)) and element_text:
-                        abstract_text.append(element_text)
-            
-            # 如果找到关键词部分，提取关键词
-            if keywords_found and not abstract_found and not metadata.keywords:
-                if isinstance(element, (Text, NarrativeText)):
-                    # 清除可能的"关键词:"/"Keywords:"前缀
-                    cleaned_text = re.sub(r'^\s*(关键词|keywords|key\s+words)\s*[：:]\s*', '', element_text, flags=re.IGNORECASE)
-                    
-                    # 尝试按不同分隔符分割
-                    for separator in [';', '；', ',', '，']:
-                        if separator in cleaned_text:
-                            metadata.keywords = [k.strip() for k in cleaned_text.split(separator) if k.strip()]
-                            break
-                    
-                    # 如果未能分割，将整个文本作为一个关键词
-                    if not metadata.keywords and cleaned_text:
-                        metadata.keywords = [cleaned_text]
-                    
-                    keywords_found = False  # 已提取关键词，停止处理
-        
-        # 设置摘要文本
-        if abstract_text:
-            metadata.abstract = self.config.paragraph_separator.join(abstract_text)
-
-    def _extract_additional_metadata(self, elements, metadata: PaperMetadata) -> None:
-        """提取其他元数据信息"""
-        for element in elements[:30]:  # 只检查文档前部分
-            element_text = str(element).strip()
-            
-            # 尝试匹配DOI
-            doi_match = re.search(r'(doi|DOI):\s*(10\.\d{4,}\/[a-zA-Z0-9.-]+)', element_text)
-            if doi_match and not metadata.doi:
-                metadata.doi = doi_match.group(2)
-            
-            # 尝试匹配日期
-            date_match = re.search(r'(published|received|accepted|submitted):\s*(\d{1,2}\s+[a-zA-Z]+\s+\d{4}|\d{4}[-/]\d{1,2}[-/]\d{1,2})', element_text, re.IGNORECASE)
-            if date_match and not metadata.date:
-                metadata.date = date_match.group(2)
-                
-            # 尝试匹配年份
-            year_match = re.search(r'\b(19|20)\d{2}\b', element_text)
-            if year_match and not metadata.year:
-                metadata.year = year_match.group(0)
-                
-            # 尝试匹配期刊/会议名称
-            journal_match = re.search(r'(journal|conference):\s*([^,;.]+)', element_text, re.IGNORECASE)
-            if journal_match:
-                if "journal" in journal_match.group(1).lower() and not metadata.journal:
-                    metadata.journal = journal_match.group(2).strip()
-                elif not metadata.conference:
-                    metadata.conference = journal_match.group(2).strip()
-
-
-def main():
-    """主函数：演示用法"""
-    # 创建提取器
-    extractor = PaperMetadataExtractor()
-
-    # 使用示例
-    try:
-        # 替换为实际的文件路径
-        sample_file = '/Users/boyin.liu/Documents/示例文档/论文/3.pdf'
-        if Path(sample_file).exists():
-            metadata = extractor.extract_metadata(sample_file)
-            print("提取的元数据:")
-            print(f"标题: {metadata.title}")
-            print(f"作者: {', '.join(metadata.authors)}")
-            print(f"机构: {', '.join(metadata.affiliations)}")
-            print(f"摘要: {metadata.abstract[:200]}...")
-            print(f"关键词: {', '.join(metadata.keywords)}")
-            print(f"DOI: {metadata.doi}")
-            print(f"日期: {metadata.date}")
-            print(f"年份: {metadata.year}")
-            print(f"期刊: {metadata.journal}")
-            print(f"会议: {metadata.conference}")
-        else:
-            print(f"示例文件 {sample_file} 不存在")
-
-        print("\n支持的格式:", extractor.get_supported_formats())
-
-    except Exception as e:
-        print(f"错误: {e}")
-
-
-if __name__ == "__main__":
-    main() 
--- a/crazy_functions/doc_fns/read_fns/unstructured_all/paper_structure_extractor.py
+++ b/crazy_functions/doc_fns/read_fns/unstructured_all/paper_structure_extractor.py
--- a/crazy_functions/doc_fns/read_fns/unstructured_all/unstructured_md.py
+++ b/crazy_functions/doc_fns/read_fns/unstructured_all/unstructured_md.py
@@ -1,86 +0,0 @@
-from pathlib import Path
-from crazy_functions.doc_fns.read_fns.unstructured_all.paper_structure_extractor import PaperStructureExtractor
-
-def extract_and_save_as_markdown(paper_path, output_path=None):
-    """
-    提取论文结构并保存为Markdown格式
-    
-    参数:
-        paper_path: 论文文件路径
-        output_path: 输出的Markdown文件路径，如果不指定，将使用与输入相同的文件名但扩展名为.md
-    
-    返回:
-        保存的Markdown文件路径
-    """
-    # 创建提取器
-    extractor = PaperStructureExtractor()
-    
-    # 解析文件路径
-    paper_path = Path(paper_path)
-    
-    # 如果未指定输出路径，使用相同文件名但扩展名为.md
-    if output_path is None:
-        output_path = paper_path.with_suffix('.md')
-    else:
-        output_path = Path(output_path)
-    
-    # 确保输出目录存在
-    output_path.parent.mkdir(parents=True, exist_ok=True)
-    
-    print(f"正在处理论文: {paper_path}")
-    
-    try:
-        # 提取论文结构
-        paper = extractor.extract_paper_structure(paper_path)
-        
-        # 生成Markdown内容
-        markdown_content = extractor.generate_markdown(paper)
-        
-        # 保存到文件
-        with open(output_path, 'w', encoding='utf-8') as f:
-            f.write(markdown_content)
-        
-        print(f"已成功保存Markdown文件: {output_path}")
-        
-        # 打印摘要信息
-        print("\n论文摘要信息:")
-        print(f"标题: {paper.metadata.title}")
-        print(f"作者: {', '.join(paper.metadata.authors)}")
-        print(f"关键词: {', '.join(paper.keywords)}")
-        print(f"章节数: {len(paper.sections)}")
-        print(f"图表数: {len(paper.figures)}")
-        print(f"表格数: {len(paper.tables)}")
-        print(f"公式数: {len(paper.formulas)}")
-        print(f"参考文献数: {len(paper.references)}")
-        
-        return output_path
-    
-    except Exception as e:
-        print(f"处理论文时出错: {e}")
-        import traceback
-        traceback.print_exc()
-        return None
-
-# 使用示例
-if __name__ == "__main__":
-    # 替换为实际的论文文件路径
-    sample_paper = "crazy_functions/doc_fns/read_fns/paper/2501.12599v1.pdf"
-    
-    # 可以指定输出路径，也可以使用默认路径
-    # output_file = "/path/to/output/paper_structure.md"
-    # extract_and_save_as_markdown(sample_paper, output_file)
-    
-    # 使用默认输出路径（与输入文件同名但扩展名为.md）
-    extract_and_save_as_markdown(sample_paper)
-    
-    # # 批量处理多个论文的示例
-    # paper_dir = Path("/path/to/papers/folder")
-    # output_dir = Path("/path/to/output/folder")
-    #
-    # # 确保输出目录存在
-    # output_dir.mkdir(parents=True, exist_ok=True)
-    #
-    # # 处理目录中的所有PDF文件
-    # for paper_file in paper_dir.glob("*.pdf"):
-    #     output_file = output_dir / f"{paper_file.stem}.md"
-    #     extract_and_save_as_markdown(paper_file, output_file)
--- a/crazy_functions/doc_fns/read_fns/unstructured_all/unstructured_reader.py
+++ b/crazy_functions/doc_fns/read_fns/unstructured_all/unstructured_reader.py
@@ -1,275 +0,0 @@
-from __future__ import annotations
-
-from pathlib import Path
-from typing import Optional, Set, Dict, Union, List
-from dataclasses import dataclass, field
-import logging
-import os
-
-from unstructured.partition.auto import partition
-from unstructured.documents.elements import (
-    Text, Title, NarrativeText, ListItem, Table,
-    Footer, Header, PageBreak, Image, Address
-)
-
-
-@dataclass
-class TextExtractorConfig:
-    """通用文档提取器配置类
-
-    Attributes:
-        extract_headers_footers: 是否提取页眉页脚
-        extract_tables: 是否提取表格内容
-        extract_lists: 是否提取列表内容
-        extract_titles: 是否提取标题
-        paragraph_separator: 段落之间的分隔符
-        text_cleanup: 文本清理选项字典
-    """
-    extract_headers_footers: bool = False
-    extract_tables: bool = True
-    extract_lists: bool = True
-    extract_titles: bool = True
-    paragraph_separator: str = '\n\n'
-    text_cleanup: Dict[str, bool] = field(default_factory=lambda: {
-        'remove_extra_spaces': True,
-        'normalize_whitespace': True,
-        'remove_special_chars': False,
-        'lowercase': False
-    })
-
-
-class UnstructuredTextExtractor:
-    """通用文档文本内容提取器
-
-    使用 unstructured 库支持多种文档格式的文本提取，提供统一的接口和配置选项。
-    """
-
-    SUPPORTED_EXTENSIONS: Set[str] = {
-        # 文档格式
-        '.pdf', '.docx', '.doc', '.txt',
-        # 演示文稿
-        '.ppt', '.pptx',
-        # 电子表格
-        '.xlsx', '.xls', '.csv',
-        # 图片
-        '.png', '.jpg', '.jpeg', '.tiff',
-        # 邮件
-        '.eml', '.msg', '.p7s',
-        # Markdown
-        ".md",
-        # Org Mode
-        ".org",
-        # Open Office
-        ".odt",
-        # reStructured Text
-        ".rst",
-        # Rich Text
-        ".rtf",
-        # TSV
-        ".tsv",
-        # EPUB
-        '.epub',
-        # 其他格式
-        '.html', '.xml',  '.json',
-    }
-
-    def __init__(self, config: Optional[TextExtractorConfig] = None):
-        """初始化提取器
-
-        Args:
-            config: 提取器配置对象，如果为None则使用默认配置
-        """
-        self.config = config or TextExtractorConfig()
-        self._setup_logging()
-
-    def _setup_logging(self) -> None:
-        """配置日志记录器"""
-        logging.basicConfig(
-            level=logging.INFO,
-            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
-        )
-        self.logger = logging.getLogger(__name__)
-
-        # 添加文件处理器
-        fh = logging.FileHandler('text_extractor.log')
-        fh.setLevel(logging.ERROR)
-        self.logger.addHandler(fh)
-
-    def _validate_file(self, file_path: Union[str, Path], max_size_mb: int = 100) -> Path:
-        """验证文件
-
-        Args:
-            file_path: 文件路径
-            max_size_mb: 允许的最大文件大小(MB)
-
-        Returns:
-            Path: 验证后的Path对象
-
-        Raises:
-            ValueError: 文件不存在、格式不支持或大小超限
-            PermissionError: 没有读取权限
-        """
-        path = Path(file_path).resolve()
-
-        if not path.exists():
-            raise ValueError(f"File not found: {path}")
-
-        if not path.is_file():
-            raise ValueError(f"Not a file: {path}")
-
-        if not os.access(path, os.R_OK):
-            raise PermissionError(f"No read permission: {path}")
-
-        file_size_mb = path.stat().st_size / (1024 * 1024)
-        if file_size_mb > max_size_mb:
-            raise ValueError(
-                f"File size ({file_size_mb:.1f}MB) exceeds limit of {max_size_mb}MB"
-            )
-
-        if path.suffix.lower() not in self.SUPPORTED_EXTENSIONS:
-            raise ValueError(
-                f"Unsupported format: {path.suffix}. "
-                f"Supported: {', '.join(sorted(self.SUPPORTED_EXTENSIONS))}"
-            )
-
-        return path
-
-    def _cleanup_text(self, text: str) -> str:
-        """清理文本
-
-        Args:
-            text: 原始文本
-
-        Returns:
-            str: 清理后的文本
-        """
-        if self.config.text_cleanup['remove_extra_spaces']:
-            text = ' '.join(text.split())
-
-        if self.config.text_cleanup['normalize_whitespace']:
-            text = text.replace('\t', ' ').replace('\r', '\n')
-
-        if self.config.text_cleanup['lowercase']:
-            text = text.lower()
-
-        return text.strip()
-
-    def _should_extract_element(self, element) -> bool:
-        """判断是否应该提取某个元素
-
-        Args:
-            element: 文档元素
-
-        Returns:
-            bool: 是否应该提取
-        """
-        if isinstance(element, (Text, NarrativeText)):
-            return True
-
-        if isinstance(element, Title) and self.config.extract_titles:
-            return True
-
-        if isinstance(element, ListItem) and self.config.extract_lists:
-            return True
-
-        if isinstance(element, Table) and self.config.extract_tables:
-            return True
-
-        if isinstance(element, (Header, Footer)) and self.config.extract_headers_footers:
-            return True
-
-        return False
-
-    @staticmethod
-    def get_supported_formats() -> List[str]:
-        """获取支持的文件格式列表"""
-        return sorted(UnstructuredTextExtractor.SUPPORTED_EXTENSIONS)
-
-    def extract_text(
-            self,
-            file_path: Union[str, Path],
-            strategy: str = "fast"
-    ) -> str:
-        """提取文本
-
-        Args:
-            file_path: 文件路径
-            strategy: 提取策略 ("fast" 或 "accurate")
-
-        Returns:
-            str: 提取的文本内容
-
-        Raises:
-            Exception: 提取过程中的错误
-        """
-        try:
-            path = self._validate_file(file_path)
-            self.logger.info(f"Processing: {path}")
-
-            # 修改这里：添加 nlp=False 参数来禁用 NLTK
-            elements = partition(
-                str(path),
-                strategy=strategy,
-                include_metadata=True,
-                nlp=True,
-            )
-
-            # 其余代码保持不变
-            text_parts = []
-            for element in elements:
-                if self._should_extract_element(element):
-                    text = str(element)
-                    cleaned_text = self._cleanup_text(text)
-                    if cleaned_text:
-                        if isinstance(element, (Header, Footer)):
-                            prefix = "[Header] " if isinstance(element, Header) else "[Footer] "
-                            text_parts.append(f"{prefix}{cleaned_text}")
-                        else:
-                            text_parts.append(cleaned_text)
-
-            return self.config.paragraph_separator.join(text_parts)
-
-        except Exception as e:
-            self.logger.error(f"Extraction failed: {e}")
-            raise
-
-
-
-def main():
-    """主函数：演示用法"""
-    # 配置
-    config = TextExtractorConfig(
-        extract_headers_footers=True,
-        extract_tables=True,
-        extract_lists=True,
-        extract_titles=True,
-        text_cleanup={
-            'remove_extra_spaces': True,
-            'normalize_whitespace': True,
-            'remove_special_chars': False,
-            'lowercase': False
-        }
-    )
-
-    # 创建提取器
-    extractor = UnstructuredTextExtractor(config)
-
-    # 使用示例
-    try:
-        # 替换为实际的文件路径
-        sample_file = './crazy_functions/doc_fns/read_fns/paper/2501.12599v1.pdf'
-        if Path(sample_file).exists() or True:
-            text = extractor.extract_text(sample_file)
-            print("提取的文本:")
-            print(text)
-        else:
-            print(f"示例文件 {sample_file} 不存在")
-
-        print("\n支持的格式:", extractor.get_supported_formats())
-
-    except Exception as e:
-        print(f"错误: {e}")
-
-
-if __name__ == "__main__":
-    main()
--- a/crazy_functions/doc_fns/read_fns/web_reader.py
+++ b/crazy_functions/doc_fns/read_fns/web_reader.py
@@ -1,219 +0,0 @@
-from __future__ import annotations
-
-from dataclasses import dataclass, field
-from typing import Dict, Optional, Union
-from urllib.parse import urlparse
-import logging
-import trafilatura
-import requests
-from pathlib import Path
-
-
-@dataclass
-class WebExtractorConfig:
-    """网页内容提取器配置类
-
-    Attributes:
-        extract_comments: 是否提取评论
-        extract_tables: 是否提取表格
-        extract_links: 是否保留链接信息
-        paragraph_separator: 段落分隔符
-        timeout: 网络请求超时时间(秒)
-        max_retries: 最大重试次数
-        user_agent: 自定义User-Agent
-        text_cleanup: 文本清理选项
-    """
-    extract_comments: bool = False
-    extract_tables: bool = True
-    extract_links: bool = False
-    paragraph_separator: str = '\n\n'
-    timeout: int = 10
-    max_retries: int = 3
-    user_agent: str = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
-    text_cleanup: Dict[str, bool] = field(default_factory=lambda: {
-        'remove_extra_spaces': True,
-        'normalize_whitespace': True,
-        'remove_special_chars': False,
-        'lowercase': False
-    })
-
-
-class WebTextExtractor:
-    """网页文本内容提取器
-    
-    使用trafilatura库提取网页中的主要文本内容，去除广告、导航等无关内容。
-    """
-
-    def __init__(self, config: Optional[WebExtractorConfig] = None):
-        """初始化提取器
-
-        Args:
-            config: 提取器配置对象，如果为None则使用默认配置
-        """
-        self.config = config or WebExtractorConfig()
-        self._setup_logging()
-
-    def _setup_logging(self) -> None:
-        """配置日志记录器"""
-        logging.basicConfig(
-            level=logging.INFO,
-            format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
-        )
-        self.logger = logging.getLogger(__name__)
-
-        # 添加文件处理器
-        fh = logging.FileHandler('web_extractor.log')
-        fh.setLevel(logging.ERROR)
-        self.logger.addHandler(fh)
-
-    def _validate_url(self, url: str) -> bool:
-        """验证URL格式是否有效
-
-        Args:
-            url: 网页URL
-
-        Returns:
-            bool: URL是否有效
-        """
-        try:
-            result = urlparse(url)
-            return all([result.scheme, result.netloc])
-        except Exception:
-            return False
-
-    def _download_webpage(self, url: str) -> Optional[str]:
-        """下载网页内容
-
-        Args:
-            url: 网页URL
-
-        Returns:
-            Optional[str]: 网页HTML内容，失败返回None
-
-        Raises:
-            Exception: 下载失败时抛出异常
-        """
-        headers = {'User-Agent': self.config.user_agent}
-        
-        for attempt in range(self.config.max_retries):
-            try:
-                response = requests.get(
-                    url, 
-                    headers=headers,
-                    timeout=self.config.timeout
-                )
-                response.raise_for_status()
-                return response.text
-            except requests.RequestException as e:
-                self.logger.warning(f"Attempt {attempt + 1} failed: {e}")
-                if attempt == self.config.max_retries - 1:
-                    raise Exception(f"Failed to download webpage after {self.config.max_retries} attempts: {e}")
-        return None
-
-    def _cleanup_text(self, text: str) -> str:
-        """清理文本
-
-        Args:
-            text: 原始文本
-
-        Returns:
-            str: 清理后的文本
-        """
-        if not text:
-            return ""
-
-        if self.config.text_cleanup['remove_extra_spaces']:
-            text = ' '.join(text.split())
-
-        if self.config.text_cleanup['normalize_whitespace']:
-            text = text.replace('\t', ' ').replace('\r', '\n')
-
-        if self.config.text_cleanup['lowercase']:
-            text = text.lower()
-
-        return text.strip()
-
-    def extract_text(self, url: str) -> str:
-        """提取网页文本内容
-
-        Args:
-            url: 网页URL
-
-        Returns:
-            str: 提取的文本内容
-
-        Raises:
-            ValueError: URL无效时抛出
-            Exception: 提取失败时抛出
-        """
-        try:
-            if not self._validate_url(url):
-                raise ValueError(f"Invalid URL: {url}")
-
-            self.logger.info(f"Processing URL: {url}")
-            
-            # 下载网页
-            html_content = self._download_webpage(url)
-            if not html_content:
-                raise Exception("Failed to download webpage")
-
-            # 配置trafilatura提取选项
-            extract_config = {
-                'include_comments': self.config.extract_comments,
-                'include_tables': self.config.extract_tables,
-                'include_links': self.config.extract_links,
-                'no_fallback': False,  # 允许使用后备提取器
-            }
-
-            # 提取文本
-            extracted_text = trafilatura.extract(
-                html_content,
-                **extract_config
-            )
-
-            if not extracted_text:
-                raise Exception("No content could be extracted")
-
-            # 清理文本
-            cleaned_text = self._cleanup_text(extracted_text)
-            
-            return cleaned_text
-
-        except Exception as e:
-            self.logger.error(f"Extraction failed: {e}")
-            raise
-
-
-def main():
-    """主函数：演示用法"""
-    # 配置
-    config = WebExtractorConfig(
-        extract_comments=False,
-        extract_tables=True,
-        extract_links=False,
-        timeout=10,
-        text_cleanup={
-            'remove_extra_spaces': True,
-            'normalize_whitespace': True,
-            'remove_special_chars': False,
-            'lowercase': False
-        }
-    )
-
-    # 创建提取器
-    extractor = WebTextExtractor(config)
-
-    # 使用示例
-    try:
-        # 替换为实际的URL
-        sample_url = 'https://arxiv.org/abs/2412.00036'
-        text = extractor.extract_text(sample_url)
-        print("提取的文本:")
-        print(text)
-
-    except Exception as e:
-        print(f"错误: {e}")
-
-
-if __name__ == "__main__":
-    main()
--- a/crazy_functions/pdf_fns/parse_pdf_via_doc2x.py
+++ b/crazy_functions/pdf_fns/parse_pdf_via_doc2x.py
@@ -242,9 +242,7 @@ def 解析PDF_DOC2X_单文件(
        extract_archive(file_path=this_file_path, dest_dir=ex_folder)

        # edit markdown files
-        success, file_manifest, project_folder = get_files_from_everything(
-            ex_folder, type=".md"
-        )
+        success, file_manifest, project_folder = get_files_from_everything(ex_folder, type='.md', chatbot=chatbot)
        for generated_fp in file_manifest:
            # 修正一些公式问题
            with open(generated_fp, "r", encoding="utf8") as f:
--- a/crazy_functions/pdf_fns/parse_word.py
+++ b/crazy_functions/pdf_fns/parse_word.py
@@ -27,10 +27,10 @@ def extract_text_from_files(txt, chatbot, history):
        return False, final_result, page_one, file_manifest, exception   #如输入区内容不是文件则直接返回输入区内容

    #查找输入区内容中的文件
-    file_pdf,pdf_manifest,folder_pdf = get_files_from_everything(txt, '.pdf')
-    file_md,md_manifest,folder_md = get_files_from_everything(txt, '.md')
-    file_word,word_manifest,folder_word = get_files_from_everything(txt, '.docx')
-    file_doc,doc_manifest,folder_doc = get_files_from_everything(txt, '.doc')
+    file_pdf,pdf_manifest,folder_pdf = get_files_from_everything(txt, '.pdf', chatbot=chatbot)
+    file_md,md_manifest,folder_md = get_files_from_everything(txt, '.md', chatbot=chatbot)
+    file_word,word_manifest,folder_word = get_files_from_everything(txt, '.docx', chatbot=chatbot)
+    file_doc,doc_manifest,folder_doc = get_files_from_everything(txt, '.doc', chatbot=chatbot)

    if file_doc:
        exception = "word"
--- a/crazy_functions/总结word文档.py
+++ b/crazy_functions/总结word文档.py
@@ -104,6 +104,8 @@ def 总结word文档(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_pr
    # 检测输入参数，如没有给定输入参数，直接退出
    if os.path.exists(txt):
        project_folder = txt
+        from shared_utils.fastapi_server import validate_path_safety
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "": txt = '空空如也的输入栏'
        report_exception(chatbot, history, a=f"解析项目: {txt}", b=f"找不到本地项目或无权访问: {txt}")
--- a/crazy_functions/批量翻译PDF文档_NOUGAT.py
+++ b/crazy_functions/批量翻译PDF文档_NOUGAT.py
@@ -61,7 +61,7 @@ def 批量翻译PDF文档(txt, llm_kwargs, plugin_kwargs, chatbot, history, syst
    history = []

    from crazy_functions.crazy_utils import get_files_from_everything
-    success, file_manifest, project_folder = get_files_from_everything(txt, type='.pdf')
+    success, file_manifest, project_folder = get_files_from_everything(txt, type='.pdf', chatbot=chatbot)
    if len(file_manifest) > 0:
        # 尝试导入依赖，如果缺少依赖，则给出安装建议
        try:
@@ -73,7 +73,7 @@ def 批量翻译PDF文档(txt, llm_kwargs, plugin_kwargs, chatbot, history, syst
                             b=f"导入软件依赖失败。使用该模块需要额外依赖，安装方法```pip install --upgrade nougat-ocr tiktoken```。")
            yield from update_ui(chatbot=chatbot, history=history) # 刷新界面
            return
-    success_mmd, file_manifest_mmd, _ = get_files_from_everything(txt, type='.mmd')
+    success_mmd, file_manifest_mmd, _ = get_files_from_everything(txt, type='.mmd', chatbot=chatbot)
    success = success or success_mmd
    file_manifest += file_manifest_mmd
    chatbot.append(["文件列表：", ", ".join([e.split('/')[-1] for e in file_manifest])]);
--- a/crazy_functions/理解PDF文档内容.py
+++ b/crazy_functions/理解PDF文档内容.py
@@ -87,6 +87,8 @@ def 理解PDF文档内容标准文件输入(txt, llm_kwargs, plugin_kwargs, chat
    # 检测输入参数，如没有给定输入参数，直接退出
    if os.path.exists(txt):
        project_folder = txt
+        from shared_utils.fastapi_server import validate_path_safety
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "":
            txt = '空空如也的输入栏'
--- a/crazy_functions/生成函数注释.py
+++ b/crazy_functions/生成函数注释.py
@@ -39,6 +39,8 @@ def 批量生成函数注释(txt, llm_kwargs, plugin_kwargs, chatbot, history, s
    import glob, os
    if os.path.exists(txt):
        project_folder = txt
+        from shared_utils.fastapi_server import validate_path_safety
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "": txt = '空空如也的输入栏'
        report_exception(chatbot, history, a = f"解析项目: {txt}", b = f"找不到本地项目或无权访问: {txt}")
--- a/crazy_functions/知识库问答.py
+++ b/crazy_functions/知识库问答.py
@@ -49,7 +49,7 @@ def 知识库文件注入(txt, llm_kwargs, plugin_kwargs, chatbot, history, syst
    file_manifest = []
    spl = ["txt", "doc", "docx", "email", "epub", "html", "json", "md", "msg", "pdf", "ppt", "pptx", "rtf"]
    for sp in spl:
-        _, file_manifest_tmp, _ = get_files_from_everything(txt, type=f'.{sp}')
+        _, file_manifest_tmp, _ = get_files_from_everything(txt, type=f'.{sp}', chatbot=chatbot)
        file_manifest += file_manifest_tmp

    if len(file_manifest) == 0:
--- a/crazy_functions/解析JupyterNotebook.py
+++ b/crazy_functions/解析JupyterNotebook.py
@@ -126,6 +126,8 @@ def 解析ipynb文件(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_p
    import os
    if os.path.exists(txt):
        project_folder = txt
+        from shared_utils.fastapi_server import validate_path_safety
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "":
            txt = '空空如也的输入栏'
--- a/crazy_functions/读文章写摘要.py
+++ b/crazy_functions/读文章写摘要.py
@@ -48,6 +48,8 @@ def 读文章写摘要(txt, llm_kwargs, plugin_kwargs, chatbot, history, system_
    import glob, os
    if os.path.exists(txt):
        project_folder = txt
+        from shared_utils.fastapi_server import validate_path_safety
+        validate_path_safety(project_folder, chatbot.get_user())
    else:
        if txt == "": txt = '空空如也的输入栏'
        report_exception(chatbot, history, a = f"解析项目: {txt}", b = f"找不到本地项目或无权访问: {txt}")
--- a/main.py
+++ b/main.py
@@ -34,7 +34,7 @@ def encode_plugin_info(k, plugin)->str:

 def main():
    import gradio as gr
-    if gr.__version__ not in ['3.32.15']:
+    if gr.__version__ not in ['3.32.14', '3.32.13']:
        raise ModuleNotFoundError("使用项目内置Gradio获取最优体验! 请运行 `pip install -r requirements.txt` 指令安装内置Gradio及其他依赖, 详情信息见requirements.txt.")

    # 一些基础工具
--- a/request_llms/bridge_all.py
+++ b/request_llms/bridge_all.py
@@ -1,3 +1,4 @@
+
 """
    该文件中主要包含2个函数，是所有LLM的通用接口，它们会继续向下调用更底层的LLM模型，处理多模型并行等细节

@@ -114,12 +115,6 @@ get_token_num_gpt4 = lambda txt: len(tokenizer_gpt4.encode(txt, disallowed_speci
 # 开始初始化模型
 AVAIL_LLM_MODELS, LLM_MODEL = get_conf("AVAIL_LLM_MODELS", "LLM_MODEL")
 AVAIL_LLM_MODELS = AVAIL_LLM_MODELS + [LLM_MODEL]
-
-# 获取中转渠道配置
-ZHONGZHUAN_ENABLE, ZHONGZHUAN_ENDPOINT, ZHONGZHUAN_API_KEY, ZHONGZHUAN_MODELS = get_conf(
-    "ZHONGZHUAN_ENABLE", "ZHONGZHUAN_ENDPOINT", "ZHONGZHUAN_API_KEY", "ZHONGZHUAN_MODELS"
-)
-
 # -=-=-=-=-=-=- 以下这部分是最早加入的最稳定的模型 -=-=-=-=-=-=-
 model_info = {
    # openai
@@ -1420,23 +1415,6 @@ for model in [m for m in AVAIL_LLM_MODELS if m.startswith("openrouter-")]:
        },
    })

-# -=-=-=-=-=-=- 中转渠道模型对齐支持 -=-=-=-=-=-=-
-# 为中转渠道模型创建统一的model_info配置
-if ZHONGZHUAN_ENABLE and ZHONGZHUAN_MODELS:
-    # 为每个中转渠道模型创建统一的model_info配置
-    # 注意：模型列表的合并已在config.py中处理
-    for model in ZHONGZHUAN_MODELS:
-        model_info.update({
-            model: {
-                "fn_with_ui": chatgpt_ui,
-                "fn_without_ui": chatgpt_noui,
-                "endpoint": ZHONGZHUAN_ENDPOINT,
-                "has_multimodal_capacity": True,
-                "max_token": 12800000,
-                "tokenizer": tokenizer_gpt4,
-                "token_cnt": get_token_num_gpt4,
-            }
-        })

 # -=-=-=-=-=-=--=-=-=-=-=-=--=-=-=-=-=-=--=-=-=-=-=-=-=-=
 # -=-=-=-=-=-=-=-=-=- ☝️ 以上是模型路由 -=-=-=-=-=-=-=-=-=
@@ -1481,11 +1459,11 @@ def predict_no_ui_long_connection(inputs:str, llm_kwargs:dict, history:list, sys
    model = llm_kwargs['llm_model']
    n_model = 1
    if '&' not in model:
-        # 如果只询问"一个"大语言模型（多数情况）：
+        # 如果只询问“一个”大语言模型（多数情况）：
        method = model_info[model]["fn_without_ui"]
        return method(inputs, llm_kwargs, history, sys_prompt, observe_window, console_silence)
    else:
-        # 如果同时询问"多个"大语言模型，这个稍微啰嗦一点，但思路相同，您不必读这个else分支
+        # 如果同时询问“多个”大语言模型，这个稍微啰嗦一点，但思路相同，您不必读这个else分支
        executor = ThreadPoolExecutor(max_workers=4)
        models = model.split('&')
        n_model = len(models)
--- a/request_llms/bridge_chatgpt.py
+++ b/request_llms/bridge_chatgpt.py
@@ -241,19 +241,9 @@ def predict(inputs:str, llm_kwargs:dict, plugin_kwargs:dict, chatbot:ChatBotWith
        yield from update_ui(chatbot=chatbot, history=history, msg="api_key已导入") # 刷新界面
        return
    elif not is_any_api_key(chatbot._cookies['api_key']):
-        # 对于中转渠道模型，额外检查中转渠道API key
-        is_zhongzhuan_valid = False
-        try:
-            ZHONGZHUAN_ENABLE, ZHONGZHUAN_MODELS, ZHONGZHUAN_API_KEY = get_conf("ZHONGZHUAN_ENABLE", "ZHONGZHUAN_MODELS", "ZHONGZHUAN_API_KEY")
-            if ZHONGZHUAN_ENABLE and llm_kwargs['llm_model'] in ZHONGZHUAN_MODELS and ZHONGZHUAN_API_KEY:
-                is_zhongzhuan_valid = is_any_api_key(ZHONGZHUAN_API_KEY)
-        except Exception:
-            pass
-        
-        if not is_zhongzhuan_valid:
-            chatbot.append((inputs, "缺少api_key。\n\n1. 临时解决方案：直接在输入区键入api_key，然后回车提交。\n\n2. 长效解决方案：在config.py中配置。"))
-            yield from update_ui(chatbot=chatbot, history=history, msg="缺少api_key") # 刷新界面
-            return
+        chatbot.append((inputs, "缺少api_key。\n\n1. 临时解决方案：直接在输入区键入api_key，然后回车提交。\n\n2. 长效解决方案：在config.py中配置。"))
+        yield from update_ui(chatbot=chatbot, history=history, msg="缺少api_key") # 刷新界面
+        return

    user_input = inputs
    if additional_fn is not None:
@@ -279,22 +269,12 @@ def predict(inputs:str, llm_kwargs:dict, plugin_kwargs:dict, chatbot:ChatBotWith

    # check mis-behavior
    if is_the_upload_folder(user_input):
-        chatbot[-1] = (inputs, f"[Local Message] 检测到操作错误！当您上传文档之后，需点击\"**函数插件区**\"按钮进行处理，请勿点击\"提交\"按钮或者\"基础功能区\"按钮。")
+        chatbot[-1] = (inputs, f"[Local Message] 检测到操作错误！当您上传文档之后，需点击“**函数插件区**”按钮进行处理，请勿点击“提交”按钮或者“基础功能区”按钮。")
        yield from update_ui(chatbot=chatbot, history=history, msg="正常") # 刷新界面
        time.sleep(2)

    try:
-        # 对于中转渠道模型，需要确保使用正确的API key
-        llm_kwargs_modified = llm_kwargs.copy()
-        try:
-            ZHONGZHUAN_ENABLE, ZHONGZHUAN_MODELS, ZHONGZHUAN_API_KEY = get_conf("ZHONGZHUAN_ENABLE", "ZHONGZHUAN_MODELS", "ZHONGZHUAN_API_KEY")
-            if ZHONGZHUAN_ENABLE and llm_kwargs['llm_model'] in ZHONGZHUAN_MODELS and ZHONGZHUAN_API_KEY:
-                # 确保中转渠道模型使用正确的API key
-                llm_kwargs_modified['api_key'] = ZHONGZHUAN_API_KEY
-        except Exception:
-            pass
-        
-        headers, payload = generate_payload(inputs, llm_kwargs_modified, history, system_prompt, image_base64_array, has_multimodal_capacity, stream)
+        headers, payload = generate_payload(inputs, llm_kwargs, history, system_prompt, image_base64_array, has_multimodal_capacity, stream)
    except RuntimeError as e:
        chatbot[-1] = (inputs, f"您提供的api-key不满足要求，不包含任何可用于{llm_kwargs['llm_model']}的api-key。您可能选择了错误的模型或请求源。")
        yield from update_ui(chatbot=chatbot, history=history, msg="api-key不满足要求") # 刷新界面
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,4 +1,4 @@
-https://public.agent-matrix.com/publish/gradio-3.32.15-py3-none-any.whl
+https://public.agent-matrix.com/publish/gradio-3.32.14-py3-none-any.whl
 fastapi==0.110
 gradio-client==0.8
 pypdf2==2.12.1
--- a/shared_utils/fastapi_server.py
+++ b/shared_utils/fastapi_server.py
@@ -51,7 +51,7 @@ def validate_path_safety(path_or_url, user):
    from toolbox import get_conf, default_user_name
    from toolbox import FriendlyException
    PATH_PRIVATE_UPLOAD, PATH_LOGGING = get_conf('PATH_PRIVATE_UPLOAD', 'PATH_LOGGING')
-    sensitive_path = None
+    sensitive_path = None   # 必须不能包含 '/'，即不能是多级路径
    path_or_url = os.path.relpath(path_or_url)
    if path_or_url.startswith(PATH_LOGGING):    # 日志文件（按用户划分）
        sensitive_path = PATH_LOGGING
--- a/shared_utils/key_pattern_manager.py
+++ b/shared_utils/key_pattern_manager.py
@@ -4,7 +4,6 @@ from functools import wraps, lru_cache
 from shared_utils.advanced_markdown_format import format_io
 from shared_utils.config_loader import get_conf as get_conf

-
 pj = os.path.join
 default_user_name = 'default_user'

@@ -12,11 +11,13 @@ default_user_name = 'default_user'
 openai_regex = re.compile(
    r"sk-[a-zA-Z0-9_-]{48}$|" +
    r"sk-[a-zA-Z0-9_-]{92}$|" +
-    r"sk-proj-[a-zA-Z0-9_-]{48}$|"+
-    r"sk-proj-[a-zA-Z0-9_-]{124}$|"+
-    r"sk-proj-[a-zA-Z0-9_-]{156}$|"+ #新版apikey位数不匹配故修改此正则表达式
+    r"sk-proj-[a-zA-Z0-9_-]{48}$|" +
+    r"sk-proj-[a-zA-Z0-9_-]{124}$|" +
+    r"sk-proj-[a-zA-Z0-9_-]{156}$|" +  #新版apikey位数不匹配故修改此正则表达式
    r"sess-[a-zA-Z0-9]{40}$"
 )
+
+
 def is_openai_api_key(key):
    CUSTOM_API_KEY_PATTERN = get_conf('CUSTOM_API_KEY_PATTERN')
    if len(CUSTOM_API_KEY_PATTERN) != 0:
@@ -27,7 +28,7 @@ def is_openai_api_key(key):


 def is_azure_api_key(key):
-    API_MATCH_AZURE = re.match(r"[a-zA-Z0-9]{32}$", key)
+    API_MATCH_AZURE = re.match(r"^[a-zA-Z0-9]{32}$|^[a-zA-Z0-9]{84}", key)
    return bool(API_MATCH_AZURE)


@@ -35,27 +36,20 @@ def is_api2d_key(key):
    API_MATCH_API2D = re.match(r"fk[a-zA-Z0-9]{6}-[a-zA-Z0-9]{32}$", key)
    return bool(API_MATCH_API2D)

+
 def is_openroute_api_key(key):
    API_MATCH_OPENROUTE = re.match(r"sk-or-v1-[a-zA-Z0-9]{64}$", key)
    return bool(API_MATCH_OPENROUTE)

+
 def is_cohere_api_key(key):
    API_MATCH_AZURE = re.match(r"[a-zA-Z0-9]{40}$", key)
    return bool(API_MATCH_AZURE)


 def is_any_api_key(key):
-    # 首先检查是否为中转渠道API KEY
-    try:
-        ZHONGZHUAN_ENABLE, ZHONGZHUAN_API_KEY = get_conf("ZHONGZHUAN_ENABLE", "ZHONGZHUAN_API_KEY")
-        if ZHONGZHUAN_ENABLE and ZHONGZHUAN_API_KEY and key == ZHONGZHUAN_API_KEY:
-            return True
-    except Exception:
-        pass
-    
-    # key 一般只包含字母、数字、下划线、逗号、中划线，但为了支持更多中转渠道，适当放宽限制
-    # 允许点号(.)，用于支持某些中转渠道的特殊格式
-    if not re.match(r"^[a-zA-Z0-9_\-,\.]+$", key):
+    # key 一般只包含字母、数字、下划线、逗号、中划线
+    if not re.match(r"^[a-zA-Z0-9_\-,]+$", key):
        # 如果配置了 CUSTOM_API_KEY_PATTERN，再检查以下以免误杀
        if CUSTOM_API_KEY_PATTERN := get_conf('CUSTOM_API_KEY_PATTERN'):
            return bool(re.match(CUSTOM_API_KEY_PATTERN, key))
@@ -102,22 +96,6 @@ def select_api_key(keys, llm_model):
    avail_key_list = []
    key_list = keys.split(',')

-    # 中转渠道API KEY处理
-    try:
-        ZHONGZHUAN_ENABLE, ZHONGZHUAN_MODELS, ZHONGZHUAN_API_KEY = get_conf("ZHONGZHUAN_ENABLE", "ZHONGZHUAN_MODELS", "ZHONGZHUAN_API_KEY")
-        if ZHONGZHUAN_ENABLE and llm_model in ZHONGZHUAN_MODELS:
-            # 如果模型在中转渠道列表中，优先使用中转渠道的API KEY
-            if ZHONGZHUAN_API_KEY:
-                return ZHONGZHUAN_API_KEY
-            # 如果没有设置专门的中转渠道API KEY，则使用OpenAI格式的key（中转渠道一般采用OpenAI接口格式）
-            for k in key_list:
-                if is_openai_api_key(k): avail_key_list.append(k)
-            if len(avail_key_list) > 0:
-                return random.choice(avail_key_list)
-    except Exception:
-        # 如果获取中转渠道配置失败，继续使用原有逻辑
-        pass
-
    if llm_model.startswith('gpt-') or llm_model.startswith('chatgpt-') or \
       llm_model.startswith('one-api-') or is_o_family_for_openai(llm_model):
        for k in key_list:
@@ -134,7 +112,7 @@ def select_api_key(keys, llm_model):
    if llm_model.startswith('cohere-'):
        for k in key_list:
            if is_cohere_api_key(k): avail_key_list.append(k)
-    
+
    if llm_model.startswith('openrouter-'):
        for k in key_list:
            if is_openroute_api_key(k): avail_key_list.append(k)
@@ -142,7 +120,7 @@ def select_api_key(keys, llm_model):
    if len(avail_key_list) == 0:
        raise RuntimeError(f"您提供的api-key不满足要求，不包含任何可用于{llm_model}的api-key。您可能选择了错误的模型或请求源（左上角更换模型菜单中可切换openai,azure,claude,cohere等请求源）。")

-    api_key = random.choice(avail_key_list) # 随机负载均衡
+    api_key = random.choice(avail_key_list)  # 随机负载均衡
    return api_key


@@ -158,5 +136,5 @@ def select_api_key_for_embed_models(keys, llm_model):
    if len(avail_key_list) == 0:
        raise RuntimeError(f"您提供的api-key不满足要求，不包含任何可用于{llm_model}的api-key。您可能选择了错误的模型或请求源。")

-    api_key = random.choice(avail_key_list) # 随机负载均衡
+    api_key = random.choice(avail_key_list)  # 随机负载均衡
    return api_key
--- a/toolbox.py
+++ b/toolbox.py
@@ -505,6 +505,22 @@ def to_markdown_tabs(head: list, tabs: list, alignment=":---:", column=False, om

    return tabs_list

+def validate_file_size(files, max_size_mb=500):
+    """
+    验证文件大小是否在允许范围内。
+    :param files: 文件的完整路径的列表
+    :param max_size_mb: 最大文件大小，单位为MB（默认500MB）
+    :return: True 如果文件大小有效，否则抛出异常
+    """
+    # 获取文件大小（字节）
+    total_size = 0
+    max_size_bytes = max_size_mb * 1024 * 1024
+    for file in files:
+        total_size  += os.path.getsize(file.name)
+        if total_size > max_size_bytes:
+            raise ValueError(f"File size exceeds the allowed limit of {max_size_mb} MB. "
+                            f"Current size: {total_size / (1024 * 1024):.2f} MB")
+    return True

 def on_file_uploaded(
    request: gradio.Request, files:List[str], chatbot:ChatBotWithCookies,
@@ -516,6 +532,7 @@ def on_file_uploaded(
    if len(files) == 0:
        return chatbot, txt

+    validate_file_size(files, max_size_mb=500)
    # 创建工作路径
    user_name = default_user_name if not request.username else request.username
    time_tag = gen_time_str()
@@ -594,7 +611,7 @@ def on_report_generated(cookies:dict, files:List[str], chatbot:ChatBotWithCookie
        file_links += (
            f'<br/><a href="file={os.path.abspath(f)}" target="_blank">{f}</a>'
        )
-    chatbot.append([None, f"已经添加到右侧“文件下载区”（可能处于折叠状态），请查收。您也可以点击以下链接直接下载：{file_links}"])
+    chatbot.append(["报告如何远程获取？", f"报告已经添加到右侧“文件下载区”（可能处于折叠状态），请查收。{file_links}"])
    return cookies, report_files, chatbot
作者	SHA1	备注	提交日期
binary-husky	171e8a2744	add context clip policy	2025-06-03 00:51:18 +08:00
binary-husky	3ed1b0320e	Merge branch 'master' into frontier	2025-05-06 22:18:48 +08:00
binary-husky	c6412a8d73	Merge branch 'master' into frontier	2025-04-15 01:30:40 +08:00
binary-husky	c598e20f0e	ensure display none even if css load fails	2025-03-10 23:41:59 +08:00
binary-husky	7af6994f7b	Merge branch 'master' into frontier	2025-03-09 00:04:52 +08:00
binary-husky	aab62aea39	Merge branch 'master' into frontier	2025-03-02 02:17:28 +08:00
binary-husky	31e3ffd997	Merge branch 'master' into frontier	2025-02-13 00:20:16 +08:00
binary-husky	1acd2bf292	Merge branch 'master' into frontier	2025-02-07 01:21:39 +08:00
binary-husky	5e0f327237	Merge branch 'master' into frontier	2025-02-04 16:12:42 +08:00
binary-husky	6a6eba5f16	support qwen2.5-max!	2025-01-29 21:30:54 +08:00
binary-husky	722a055879	Merge branch 'master' into frontier	2025-01-29 00:00:08 +08:00
binary-husky	8254930495	Merge branch 'master' into frontier	2025-01-03 00:31:30 +08:00
binary-husky	ca1ab57f5d	Merge branch 'master' into frontier	2024-12-29 00:08:59 +08:00
Yuki	e20177cb7d	Support new azure ai key pattern (#2098 ) * fix cookie overflow bug * fix temp issue of o1 * compat bug fix * support new azure ai key pattern * support new azure ai key pattern * allow disable openai proxy in `WHEN_TO_USE_PROXY` * change padding --------- Co-authored-by: binary-husky <qingxu.fu@outlook.com>	2024-12-29 00:04:16 +08:00
binary-husky	6bd410582b	Merge branch 'master' into frontier	2024-12-28 07:15:37 +08:00
Aibot	4fe638ffa8	Dev/aibot/bug fix (#2086 ) * 添加为windows的环境打包以及一键启动脚本 (#2068) * 新增自动打包windows下的环境依赖 --------- Co-authored-by: binary-husky <qingxu.fu@outlook.com> * update requirements * update readme * idor-vuln-bug-fix * vuln-bug-fix: validate file size, default 500M * add tts test * remove welcome card when layout overflows --------- Co-authored-by: Menghuan <menghuan2003@outlook.com> Co-authored-by: binary-husky <qingxu.fu@outlook.com> Co-authored-by: aibot <hangyuntang@qq.com>	2024-12-23 10:17:43 +08:00