如何从其他网站获取数据?

时间:2013-06-14 00:30:00

标签: python database parsing web-scraping

我想创建一个网站,从其他网站中提取信息并将其打印到我的网站上,我正处于研究阶段,所以我想听听一些意见,这个项目的最佳解决方案是什么?

我听说使用解析器的Python可以做到这一点我只是想知道我应该采取什么样的路径以及我应该使用哪种语言?。

5 个答案:

答案 0 :(得分:4)

使用BeautifulSoup和Urllib2的Python可能会很好地为您服务。当然,你是否应该从其他网站上抓取数据是值得怀疑的,如果这些网站改变了布局,你可能会发现自己处在不断的斗争中。

答案 1 :(得分:2)

Requests就是针对这类事情而设计的。

然而,在scaping HTML之前,请检查网站是否提供API。如果是这样,你已经开始营业了!

答案 2 :(得分:2)

Python具有出色的网络抓取功能:urllib,BeautifulSoup,XPath等。这个视频将让你快速开始使用python web scraping:http://www.youtube.com/watch?v=Ap_DlSrT-iE - 他正在使用urllib和BeautifulSoup来抓取huffingtonposts'提要在他的示例脚本中。

如果您想要一个抓取系统(带有网络前端和管理员的刮刀发布您的抓取内容),这对您来说可能是一个不错的选择 - https://github.com/holgerd77/django-dynamic-scraper - 如果您已经提出,我会强烈建议您这样做熟悉Django。

答案 3 :(得分:1)

我更喜欢使用urllib2按网址请求网页,然后使用regular expressions提取数据。如果数据是小块,这很有效。代码读取得相当好:如果line包含/ regex /,则存储值。

答案 4 :(得分:0)

您可以编写一些网络蜘蛛来从其他网站收集一些数据。通过使用urllib2或请求可以帮助您从网站下载html.Beautiful或PyQuery可以帮助您解析HTML并获取您想要的数据。