从维基百科中检索干净的纯文本

时间:2015-09-26 16:16:44

标签: python text-to-speech wikipedia plaintext

我有一个文本到语音阅读器,我喜欢使用,因为它有助于我的阅读障碍。我想让它为我阅读维基百科页面。我可以使用可读性来稍微清理页面,但它仍然具有这样的所有引用[1],在文本和部分之间,它说"编辑"并且需要引用"很多。它还说"主要文章:示例",它仍然包含图片标题。

我真的不想下载整个转储并解析它,因为它似乎太多了。我真正喜欢的是能够在"读取模式"中看到页面。他们就像在阅读书中一样。我确实知道一点Python,所以我可以编写一个可以获取url,下载数据然后解析它的scraper。但是,我不知道如何开始。

TTS程序我已经读取了从剪贴板中复制的内容,因此如果输入是一个URL,程序会将文本复制到剪贴板中,这将是非常棒的。

从哪里开始这类事情?您能概述一下我需要做的步骤吗?那里有没有可以做到这一点的套餐吗?

- 编辑

这是我到目前为止所做的,它的工作正常(抱歉我的代码有多可怕)

import wikipedia
article=wikipedia.page("USA")
content = article.content.encode('utf8')
content1 = content.replace("=","")
content2 = content1.replace("edit","")
content2 = content1.replace("/","")
import string
content3 = filter(lambda x: x in string.printable, content2)
print content3

import pyperclip
pyperclip.copy(content3)

1 个答案:

答案 0 :(得分:0)

我相信Wikipedia Python library是您正在寻找的。

import wikipedia
article=wikipedia.page('"Hello, World!" program')
article.content