第一次来到这里 - 以为我代表一位同事提出问题。
我实验室的某个人正在对各种私有化神经影像中心(例如http://www.canmagnetic.com/)的网络存在进行内容分析(例如逐行阅读文章或成绩单并确定相关主题)。她一直在手持c / ping整个站点地图,我知道我可以与Python一起打一些东西来跟踪链接并为她转储全文(带行号),但我从来没有真正做过什么都很喜欢这个。关于我如何开始的任何想法?
干杯, -Alex
答案 0 :(得分:1)
以下是您开始使用所需的一切。阅读“清单7.简单的Python网站搜寻器”一节。这些例子甚至用python编写。
祝你好运!答案 1 :(得分:1)
Python的流行网络抓取模块是Scrapy。例如,请继续查看底部的教程链接。
答案 2 :(得分:0)
你正在寻找“网络抓取”。
你可以谷歌周围找到相当多的不同技术和实用程序,如这一个
更多信息
答案 3 :(得分:0)
答案 4 :(得分:0)
您可以将wget与--spider
选项一起使用。
答案 5 :(得分:0)
上次我不得不做这样的事情,我开始这样的事情:
from BeautifulSoup import BeautifulSoup
import urllib
html = urllib.urlopen("http://www.someurl.com")
html = html.read()
soup = BeautifulSoup(html)
以下是Beautiful Soup(http://www.crummy.com/software/BeautifulSoup/documentation.html)的文档,虽然它可能对您的目的而言过于苛刻,但在我看来很方便。