disallow special token + limit num of file < 512

这个提交包含在:
505030475
2023-04-14 09:50:14 +08:00
父节点 a2002ebd85
当前提交 dd648bd446
共有 8 个文件被更改,包括 10 次插入9 次删除

查看文件

@@ -14,7 +14,7 @@ class PaperFileGroup():
import tiktoken
from toolbox import get_conf
enc = tiktoken.encoding_for_model(*get_conf('LLM_MODEL'))
def get_token_num(txt): return len(enc.encode(txt))
def get_token_num(txt): return len(enc.encode(txt, disallowed_special=()))
self.get_token_num = get_token_num
def run_file_split(self, max_token_limit=1900):