web抓取Android市场中的应用信息

时间:2012-10-17 02:10:22

标签: android web web-crawler

我想获取Android应用程序信息的数据集,其中包括应用程序名称,包名称,版本,请求的权限等。

官方Android应用程序市场是Google Play。市场上有数百万种应用程序。我希望从中获取至少数万个应用程序信息,并将其存储到csv文件中。例如,这是一个应用程序的链接: https://play.google.com/store/apps/details?id=de.ralphsapps.snorecontrol

  • 问题是如何获取应用程序的URL列表?
  • 如何从网页解析信息?

是否有适合此类工作的优秀网络抓取工具?或者是否有任何脚本语言,如python,具有这种爬行功能?

感谢。

1 个答案:

答案 0 :(得分:0)

Google Play Store有自己的格式来显示HTML中的信息对象。 为所有这些编写自己的HTML解析器以获取所需的信息。

最好在JSoup.org使用 JSoup 来完成这项工作,

或者参考JSoup上的示例教程作为解析器: Parsing HTML using JSoup