从维基百科页面获取常规文本

时间:2017-05-14 13:48:36

标签: python python-2.7 parsing wikipedia

我试图从随机维基百科页面获取文本或摘要文本,我需要它,最后是一个单词列表(句子列表)。

我正在使用以下代码

def get_random_pages_summary(pages = 0):
    import wikipedia
    page_names = [wikipedia.random(1) for i in range(pages)]
    return [[p,wikipedia.page(p).summary] for p in page_names]

def text_to_list_of_words_without_new_line(text):
    t = text.replace("\n", " ").strip()
    t1 = t.split()
    t2 = ["".join(w) for w in t1]
    return t2

text = get_random_pages_summary(1)

for i,row in enumerate(text):
    text[i][1] = text_to_list_of_words_without_new_line(row[1])

print text[0][1]

我得到了奇怪的令牌,我认为它们是维基百科页面的降价代码的遗物,例如

  

俄语:',你' \ u0418 \ u0432 \ u0430 \ u043d

我发现当英语页面中有另一种语言的引用时可能会发生这种情况,当页面中有一定年份时也会发生这种情况,例如2015-2016

我想将所有这些转换为常规字词,并删除那些我无法转换为常规字词的字词。

感谢。

0 个答案:

没有答案