我试图从随机维基百科页面获取文本或摘要文本,我需要它,最后是一个单词列表(句子列表)。
我正在使用以下代码
def get_random_pages_summary(pages = 0):
import wikipedia
page_names = [wikipedia.random(1) for i in range(pages)]
return [[p,wikipedia.page(p).summary] for p in page_names]
def text_to_list_of_words_without_new_line(text):
t = text.replace("\n", " ").strip()
t1 = t.split()
t2 = ["".join(w) for w in t1]
return t2
text = get_random_pages_summary(1)
for i,row in enumerate(text):
text[i][1] = text_to_list_of_words_without_new_line(row[1])
print text[0][1]
我得到了奇怪的令牌,我认为它们是维基百科页面的降价代码的遗物,例如
俄语:',你' \ u0418 \ u0432 \ u0430 \ u043d
我发现当英语页面中有另一种语言的引用时可能会发生这种情况,当页面中有一定年份时也会发生这种情况,例如2015-2016
我想将所有这些转换为常规字词,并删除那些我无法转换为常规字词的字词。
感谢。