有谁知道AppShopper.com如何抓取Apple应用商店的数据? 我们是否必须使用像Watir这样的自动化测试来模拟浏览器?这是收集数据的唯一方法(例如,下载统计数据,价格)吗?
答案 0 :(得分:8)
抓取不是最好的方法。有partner feed program,完全免费加入。可以提供所需的数据。阅读FAQ
答案 1 :(得分:7)
有数百种服务,比如你提到的服务......但是建立自己的刮刀并不困难。
假设您希望在英国查看ID为xxxxxxxxx的应用程序的所有评论(在应用程序链接上右键单击iTunes并选择“复制链接”)。您应该检索文件:
如果您将此网址放在浏览器中,您将无法看到与iTunes相同的信息量。也许你根本看不到任何东西,你的浏览器会要求打开iTunes。尽管如此,上面的URL与iTunes访问的相同 - 只是iTunes要求它以与Web浏览器稍有不同的方式进行访问。为此,您可以使用cURL,这是大多数GNU / Linux发行版中默认拥有的命令,但您也可以在Windows上安装。
如果你在Windows上,并且没有安装cURL,请下载它(http://curl.haxx.se/download.html),解压缩它,然后将bin目录添加到PATH变量(http://www.computerhope.com/issues/ch000549.htm); < / p>
打开终端窗口(META + R,数字CMD);
安装cURL后,无论是在Windows和* nix上,还是在终端上剪切并粘贴:
curl -H'主持人:itunes.apple.com'-H'接受语言:en-us,en; q = 0.50'-H'X-Apple-Store-Front:143444,5'-H' X-Apple-Tz:3600'-U'iTunes / 9.2.1(Macintosh; Intel Mac OS X 10.5.8)AppleWebKit / 533.16''http://itunes.apple.com/WebObjects/MZStore.woa/wa/customerReviews?s=143444&id=xxxxxxxxx&displayable-kind=11'
您现在应该看到iTunes看到的实际XML文件以及所有评论。
答案 2 :(得分:1)
如果您右键单击iTunes中的任何链接或图标,它将为您提供用于下载为下一个iTunes页面显示的数据的URL。 HTML数据的格式会定期以未记录的方式更改。如果您使用wget或curl从这些URL下载数据,您可能还需要模仿iTunes用户代理和国家商店正面名称,您可以通过使用线鲨等监控iTunes流量来获取该名称。