前言:我拥有广泛的大学知识,少数几种语言(C ++,VB,C#,Java,许多网络语言),所以请随意使用。
我想制作一个比较数字的Android应用程序,但为了做到这一点,我需要一个数据库。我是一个单人团队,这些数字每两周更新一次,所以我想从维基上获取更新数据。
所以我的问题是:如何使用上述某种语言从网站访问信息?
答案 0 :(得分:4)
我理解的问题是:某个实体每隔一周生成一个数据集(即数字),您需要下载该数据集进行处理(例如排序)。
理想情况下,维护wiki的网站将提供一个服务,如RESTful interface,以便轻松收集数据。如果是这种情况,我会使用任何易于操作HTTP请求和语言的语言。响应,使您的数据操作变得容易。正如之前的一张海报所说,Java会很好用。
如果您坚持使用维基页面,那么您有几个选择。您可以解析浏览器收到的HTML(Perl会成为一种体面的语言)。或者您可以使用为此目的而构建的工具,例如前面提到的Jsoup。
您的问题还提到了一些实施细节,例如需要数据库。显然,没有足够的上下文信息让我知道这是否是最优的,所以我不会解决问题的这个方面。
答案 1 :(得分:2)
http://jsoup.org/是一个很棒的Java工具,用于访问html页面上的内容
答案 2 :(得分:0)
您可以查看:http://web-harvest.sourceforge.net/
答案 3 :(得分:0)
对于Python,BeautifulSoup是最宽容的HTML解析器之一。 The documentation also lists similar libraries in Ruby and Java,所以你可能会找到相关的东西。