如何从网站收集数据

时间:2011-12-18 04:54:29

标签: database web html-content-extraction

前言:我拥有广泛的大学知识,少数几种语言(C ++,VB,C#,Java,许多网络语言),所以请随意使用。

我想制作一个比较数字的Android应用程序,但为了做到这一点,我需要一个数据库。我是一个单人团队,这些数字每两周更新一次,所以我想从维基上获取更新数据。

所以我的问题是:如何使用上述某种语言从网站访问信息?

4 个答案:

答案 0 :(得分:4)

我理解的问题是:某个实体每隔一周生成一个数据集(即数字),您需要下载该数据集进行处理(例如排序)。

理想情况下,维护wiki的网站将提供一个服务,如RESTful interface,以便轻松收集数据。如果是这种情况,我会使用任何易于操作HTTP请求和语言的语言。响应,使您的数据操作变得容易。正如之前的一张海报所说,Java会很好用。

如果您坚持使用维基页面,那么您有几个选择。您可以解析浏览器收到的HTML(Perl会成为一种体面的语言)。或者您可以使用为此目的而构建的工具,例如前面提到的Jsoup。

您的问题还提到了一些实施细节,例如需要数据库。显然,没有足够的上下文信息让我知道这是否是最优的,所以我不会解决问题的这个方面。

答案 1 :(得分:2)

http://jsoup.org/是一个很棒的Java工具,用于访问html页面上的内容

答案 2 :(得分:0)

您可以查看:http://web-harvest.sourceforge.net/

答案 3 :(得分:0)

对于Python,BeautifulSoup是最宽容的HTML解析器之一。 The documentation also lists similar libraries in Ruby and Java,所以你可能会找到相关的东西。