从网站抓取数据

时间:2014-03-19 10:49:45

标签: java csv web-crawler

我对此类问题感到陌生,所以我对网站上的数据抓取有疑问。我需要从某个网站检索数据,因为我知道可以以csv或xls文件的形式检索数据。但是我怎样才能获得下载它的URL?

例如,我打开一些服装店并查看所有分类,是以某种方式接收文件(csv或其他)形式的数据?或者我需要以某种方式解析html?

2 个答案:

答案 0 :(得分:1)

了解基础知识

首先:这一切都取决于网站的类型(静态/动态)和要求(您希望在记录中获取和输出哪种数据)。

第二个也是重要的一个:您需要学习如何使用您的首选语言发出网络请求。另外,如何序列化/反序列化各种文件格式的数据。

这是X Wang关于创建Java Crawler的一篇不错的帖子:

http://www.programcreek.com/2012/12/how-to-make-a-web-crawler-using-java/

它应该让你开始你的目的。

希望它有所帮助!

答案 1 :(得分:0)

对我来说,我建议您使用网络抓取工具,因为它更容易,更方便。如果您以前没有使用任何其他网络抓取工具,我建议您直接使用网络抓取工具。它可以帮助您根据需要从网站提取数据为Excel或CSV格式。如果您有兴趣,可以查看本案例教程以了解更多信息。 Scrape Data from Airbnb into Excel