从Web域下载整页文本

时间:2010-06-09 19:33:58

标签: python

第一次来到这里 - 以为我代表一位同事提出问题。

我实验室的某个人正在对各种私有化神经影像中心(例如http://www.canmagnetic.com/)的网络存在进行内容分析(例如逐行阅读文章或成绩单并确定相关主题)。她一直在手持c / ping整个站点地图,我知道我可以与Python一起打一些东西来跟踪链接并为她转储全文(带行号),但我从来没有真正做过什么都很喜欢这个。关于我如何开始的任何想法?

干杯, -Alex

6 个答案:

答案 0 :(得分:1)

以下是您开始使用所需的一切。阅读“清单7.简单的Python网站搜寻器”一节。这些例子甚至用python编写。

http://www.ibm.com/developerworks/linux/library/l-spider/

祝你好运!

答案 1 :(得分:1)

Python的流行网络抓取模块是Scrapy。例如,请继续查看底部的教程链接。

答案 2 :(得分:0)

你正在寻找“网络抓取”。

你可以谷歌周围找到相当多的不同技术和实用程序,如这一个

http://www.webscrape.com/

更多信息

http://blogs.computerworld.com/node/324

答案 3 :(得分:0)

是否有必要在Python中执行此操作?如果没有,HTTrack可能是您的完美解决方案。这可以将整个站点复制到HTML文件的层次结构中。如果您正在寻找Python解决方案,请尝试Scrapy

答案 4 :(得分:0)

您可以将wget--spider选项一起使用。

答案 5 :(得分:0)

上次我不得不做这样的事情,我开始这样的事情:

from BeautifulSoup import BeautifulSoup
import urllib
html = urllib.urlopen("http://www.someurl.com")
html = html.read()
soup = BeautifulSoup(html)

以下是Beautiful Soup(http://www.crummy.com/software/BeautifulSoup/documentation.html)的文档,虽然它可能对您的目的而言过于苛刻,但在我看来很方便。