Question

我正在尝试阅读Wiki页面，收集并列举所有句子。

#read the wiki page

import wikipedia
eliz = wikipedia.page("Elizabeth II")
fullText2=eliz.content

m = re.split('(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)(\s|[A-Z].*)',fullText2)
docs=[]
for i in m:
  print (i)
  docs.append(i)

但是分割句子似乎无法正常工作：例如，我从整体上得到了这个！！

“伊丽莎白从伊顿公学副校长亨利·马滕（Henry Marten）从讲母语的女继承人。一个女孩指南公司，第一个白金汉宫公司成立是为了让她能够与自己年龄相同的女孩交往。后来，她被海录取游侠.1939年，伊丽莎白的父母参观了加拿大和美国状态。和1927年一样，她的父母曾到澳大利亚和新州巡回演出新西兰，伊丽莎白留在英国，因为她的父亲认为她太年轻了，无法进行公共旅行。伊丽莎白像她一样“眼泪汪汪” 父母离开了。他们定期通信，她和她的父母于5月18日进行了第一个皇家跨大西洋电话。”

Python-将Wiki页面转换成句子

0 个答案: