Question

我有一个文本到语音阅读器，我喜欢使用，因为它有助于我的阅读障碍。我想让它为我阅读维基百科页面。我可以使用可读性来稍微清理页面，但它仍然具有这样的所有引用[1]，在文本和部分之间，它说＆＃34;编辑＆＃34;并且需要引用＆＃34;很多。它还说＆＃34;主要文章：示例＆＃34;，它仍然包含图片标题。

我真的不想下载整个转储并解析它，因为它似乎太多了。我真正喜欢的是能够在＆＃34;读取模式＆＃34;中看到页面。他们就像在阅读书中一样。我确实知道一点Python，所以我可以编写一个可以获取url，下载数据然后解析它的scraper。但是，我不知道如何开始。

TTS程序我已经读取了从剪贴板中复制的内容，因此如果输入是一个URL，程序会将文本复制到剪贴板中，这将是非常棒的。

从哪里开始这类事情？您能概述一下我需要做的步骤吗？那里有没有可以做到这一点的套餐吗？

- 编辑

这是我到目前为止所做的，它的工作正常（抱歉我的代码有多可怕）

import wikipedia
article=wikipedia.page("USA")
content = article.content.encode('utf8')
content1 = content.replace("=","")
content2 = content1.replace("edit","")
content2 = content1.replace("/","")
import string
content3 = filter(lambda x: x in string.printable, content2)
print content3

import pyperclip
pyperclip.copy(content3)

Answer 1

我相信Wikipedia Python library是您正在寻找的。

import wikipedia
article=wikipedia.page('"Hello, World!" program')
article.content

从维基百科中检索干净的纯文本

1 个答案: