Json is good

这个提交包含在:
505030475
2023-05-20 13:01:58 +08:00
父节点 fc762cbf7f
当前提交 f05862c854
共有 3 个文件被更改,包括 1237 次插入1206 次删除

查看文件

@@ -41,8 +41,8 @@ def clean_text(raw_text):
"""
对从 PDF 提取出的原始文本进行清洗和格式化处理。
1. 对原始文本进行归一化处理。
2. 替换跨行的连词,例如 “Espe-\ncially” 转换为 “Especially”。
3. 根据 heuristic 规则判断换行符是否是段落分隔,并相应地进行替换
2. 替换跨行的连词
3. 根据 heuristic 规则判断换行符是否是段落分隔,并相应地进行替换
"""
# 对文本进行归一化处理
normalized_text = normalize_text(raw_text)