让我们深入研究这个,不是吗?
好的,我需要编写一个脚本(我不关心什么语言,喜欢像Python或Javascript这样的东西,但无论什么工作,我都会花时间学习)。该脚本将访问多个URL,从每个站点提取文本并将其存储在我的PC上的文件夹中。 (从那里我用Python操纵数据,我知道该怎么做。)
编辑:
目前我正在使用python的NLTK
模块。这是我的代码的简单版本:
url = "<URL HERE>"
html = urlopen(url).read()
raw = nltk.clean_html(html)
print(raw)
此代码适用于 http 和 https ,但不适用于需要身份验证的实例。
是否有处理安全身份验证的Python模块?
提前感谢您的帮助!对于那些将此视为一个糟糕问题的mod,请给我一些方法来改善它。我需要想法......来自人,而不是谷歌。