Question

我试图从随机维基百科页面获取文本或摘要文本，我需要它，最后是一个单词列表（句子列表）。

我正在使用以下代码

def get_random_pages_summary(pages = 0):
    import wikipedia
    page_names = [wikipedia.random(1) for i in range(pages)]
    return [[p,wikipedia.page(p).summary] for p in page_names]

def text_to_list_of_words_without_new_line(text):
    t = text.replace("\n", " ").strip()
    t1 = t.split()
    t2 = ["".join(w) for w in t1]
    return t2

text = get_random_pages_summary(1)

for i,row in enumerate(text):
    text[i][1] = text_to_list_of_words_without_new_line(row[1])

print text[0][1]

我得到了奇怪的令牌，我认为它们是维基百科页面的降价代码的遗物，例如

俄语：＆＃39;，你＆＃39; \ u0418 \ u0432 \ u0430 \ u043d

我发现当英语页面中有另一种语言的引用时可能会发生这种情况，当页面中有一定年份时也会发生这种情况，例如2015-2016

我想将所有这些转换为常规字词，并删除那些我无法转换为常规字词的字词。

感谢。

从维基百科页面获取常规文本

0 个答案: