我有一个网站,其中有关于主题的信息(解释它是什么)。每个主题都有自己的网页。每个网页都设置相同,我想自动检索这些信息。我正在考虑使用像wget这样的东西来自动获取信息,但我是wget的新手,所以我不知道它是否会起作用,我也不知道如何运行它去每个页面并获取我想要的信息。
我希望我在这里有点意义。就像我说的,我对这个问题的尝试是使用wget,也许是python脚本?我不是要求一个关于如何做的脚本,只是寻找一些方向。
答案 0 :(得分:2)
每隔一段时间我就会遇到同样的问题,我通常会做一个像这样的小脚本:
url = "www.yoursite.com/topics"
custom_regex = re.compile("insert your a regex here")
req = urllib2.Request(url, headers={"User-Agent": "Magic Browser"})
text = urllib2.urlopen(req).read()
for link in custom_regex.findall(text):
print link
然后像这样使用它:
python script.py > urls.txt
wget -i urls
-i
选项告诉wget下载文件中列出的所有网址,每行一个网址。
答案 1 :(得分:1)
要在Python中检索网页,而不是使用wget,我建议使用python' urllib2 - https://docs.python.org/2/howto/urllib2.html
检索完网页后,您可以使用BeautifulSoup解析它 - http://www.crummy.com/software/BeautifulSoup/bs4/doc/ - 它将为您解析html,您可以直接浏览所需的网页。