fix: 智能分段文本分段丢失数据
This commit is contained in:
parent
0c9a7c15b6
commit
53d45e069d
@ -358,7 +358,7 @@ default_split_pattern = {
|
|||||||
'md': [re.compile('(?<=^)# .*|(?<=\\n)# .*'), re.compile('(?<!#)## (?!#).*'), re.compile("(?<!#)### (?!#).*"),
|
'md': [re.compile('(?<=^)# .*|(?<=\\n)# .*'), re.compile('(?<!#)## (?!#).*'), re.compile("(?<!#)### (?!#).*"),
|
||||||
re.compile("(?<!#)#### (?!#).*"), re.compile("(?<!#)##### (?!#).*"),
|
re.compile("(?<!#)#### (?!#).*"), re.compile("(?<!#)##### (?!#).*"),
|
||||||
re.compile("(?<!#)###### (?!#).*")],
|
re.compile("(?<!#)###### (?!#).*")],
|
||||||
'default': [re.compile("(?<!\n)\n\n.+")]
|
'default': [re.compile("(?<!\n)\n\n+")]
|
||||||
}
|
}
|
||||||
|
|
||||||
|
|
||||||
|
|||||||
Loading…
Reference in New Issue
Block a user