使用Python从安全网站提取和解析HTML?

时间:2013-08-08 19:50:14

标签: python ssl web extract

让我们深入研究这个,不是吗?

好的,我需要编写一个脚本(我不关心什么语言,喜欢像Python或Javascript这样的东西,但无论什么工作,我都会花时间学习)。该脚本将访问多个URL,从每个站点提取文本并将其存储在我的PC上的文件夹中。 (从那里我用Python操纵数据,我知道该怎么做。)

编辑: 目前我正在使用python的NLTK模块。这是我的代码的简单版本:

url  = "<URL HERE>"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)

此代码适用于 http https ,但不适用于需要身份验证的实例。

是否有处理安全身份验证的Python模块?

提前感谢您的帮助!对于那些将此视为一个糟糕问题的mod,请给我一些方法来改善它。我需要想法......来自人,而不是谷歌。

1 个答案:

答案 0 :(得分:1)

Mechanize2)是一个选项,其他只是urllib2