Question

第一次来到这里 - 以为我代表一位同事提出问题。

我实验室的某个人正在对各种私有化神经影像中心（例如http://www.canmagnetic.com/）的网络存在进行内容分析（例如逐行阅读文章或成绩单并确定相关主题）。她一直在手持c / ping整个站点地图，我知道我可以与Python一起打一些东西来跟踪链接并为她转储全文（带行号），但我从来没有真正做过什么都很喜欢这个。关于我如何开始的任何想法？

干杯， -Alex

Answer 1

以下是您开始使用所需的一切。阅读“清单7.简单的Python网站搜寻器”一节。这些例子甚至用python编写。

http://www.ibm.com/developerworks/linux/library/l-spider/

祝你好运！

Answer 2

Python的流行网络抓取模块是Scrapy。例如，请继续查看底部的教程链接。

Answer 3

你正在寻找“网络抓取”。

你可以谷歌周围找到相当多的不同技术和实用程序，如这一个

http://www.webscrape.com/

更多信息

http://blogs.computerworld.com/node/324

Answer 4

是否有必要在Python中执行此操作？如果没有，HTTrack可能是您的完美解决方案。这可以将整个站点复制到HTML文件的层次结构中。如果您正在寻找Python解决方案，请尝试Scrapy。

Answer 5

您可以将wget与--spider选项一起使用。

Answer 6

上次我不得不做这样的事情，我开始这样的事情：

from BeautifulSoup import BeautifulSoup
import urllib
html = urllib.urlopen("http://www.someurl.com")
html = html.read()
soup = BeautifulSoup(html)

以下是Beautiful Soup（http://www.crummy.com/software/BeautifulSoup/documentation.html）的文档，虽然它可能对您的目的而言过于苛刻，但在我看来很方便。

从Web域下载整页文本

6 个答案: