我有一个文本到语音阅读器,我喜欢使用,因为它有助于我的阅读障碍。我想让它为我阅读维基百科页面。我可以使用可读性来稍微清理页面,但它仍然具有这样的所有引用[1],在文本和部分之间,它说"编辑"并且需要引用"很多。它还说"主要文章:示例",它仍然包含图片标题。
我真的不想下载整个转储并解析它,因为它似乎太多了。我真正喜欢的是能够在"读取模式"中看到页面。他们就像在阅读书中一样。我确实知道一点Python,所以我可以编写一个可以获取url,下载数据然后解析它的scraper。但是,我不知道如何开始。
TTS程序我已经读取了从剪贴板中复制的内容,因此如果输入是一个URL,程序会将文本复制到剪贴板中,这将是非常棒的。
从哪里开始这类事情?您能概述一下我需要做的步骤吗?那里有没有可以做到这一点的套餐吗?
- 编辑
这是我到目前为止所做的,它的工作正常(抱歉我的代码有多可怕)
import wikipedia
article=wikipedia.page("USA")
content = article.content.encode('utf8')
content1 = content.replace("=","")
content2 = content1.replace("edit","")
content2 = content1.replace("/","")
import string
content3 = filter(lambda x: x in string.printable, content2)
print content3
import pyperclip
pyperclip.copy(content3)
答案 0 :(得分:0)
我相信Wikipedia Python library是您正在寻找的。 p>
import wikipedia
article=wikipedia.page('"Hello, World!" program')
article.content