我正在尝试阅读Wiki页面,收集并列举所有句子。
#read the wiki page
import wikipedia
eliz = wikipedia.page("Elizabeth II")
fullText2=eliz.content
m = re.split('(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)(\s|[A-Z].*)',fullText2)
docs=[]
for i in m:
print (i)
docs.append(i)
但是分割句子似乎无法正常工作: 例如,我从整体上得到了这个!!
“伊丽莎白从 伊顿公学副校长亨利·马滕(Henry Marten)从 讲母语的女继承人。一个女孩指南公司, 第一个白金汉宫公司成立是为了让她能够 与自己年龄相同的女孩交往。后来,她被海录取 游侠.1939年,伊丽莎白的父母参观了加拿大和美国 状态。和1927年一样,她的父母曾到澳大利亚和新州巡回演出 新西兰,伊丽莎白留在英国,因为她的父亲认为她 太年轻了,无法进行公共旅行。伊丽莎白像她一样“眼泪汪汪” 父母离开了。他们定期通信,她和她的父母 于5月18日进行了第一个皇家跨大西洋电话。”