我想抓取Google Play商店下载所有Android应用程序的网页(所有网页都包含以下基本网址:https://play.google.com/store/apps/)。我检查了Play商店的robots.txt文件,但不允许抓取这些网址。
此外,当我浏览Google Play商店时,我只能看到每个类别最多3页的热门应用程序。我怎样才能获得其他应用程序页面?
如果有人尝试抓取Google Play,请告诉我以下事项: a)你是否成功地抓住了游戏商店。如果是,请告诉我你是怎么做到的。 b)如何抓取每个类别的顶级应用程序中不可见的隐藏应用程序页面? c)是否有技术可以下载应用程序,而不仅仅是网页?
我已经四处寻找并找到以下链接:
a) https://code.google.com/p/android-market-api/
b) https://code.google.com/p/android-marketplace-crawler/source/checkout
c) http://mohsin-junaid.blogspot.co.uk/2012/12/how-to-install-android-marketplace.html
d) http://mohsin-junaid.blogspot.in/2012/12/how-to-download-multiple-android-apks.html
谢谢!
答案 0 :(得分:4)
首先,Google Play的robots.txt不会禁止带有“/ store / apps”的网页。
如果您想抓取Google Play,则需要开发自己的网络抓取工具,解析HTML网页并提取您需要的应用元数据(例如标题,说明,价格等)。此主题已在此其他question中介绍。有图书馆可以提供帮助,例如:
更难的部分是“找到”要抓取的应用页面。您可以使用1)Google Play Sitemap或2)按照您在Link Extractor文档中解释的每个抓取页面中找到的应用链接(如果您打算使用Scrapy)。
另一个选择是使用基于ProtoBuf的开源库来获取有关应用程序的元数据,这里是项目的链接:https://code.google.com/archive/p/android-market-api。 此库代表有效的Google帐户从Google Play获取应用元数据,但在这种情况下,您需要使用抓取工具“查找”可用的应用并安排其元数据检索。这个其他开源项目可以帮助您:https://code.google.com/archive/p/android-marketplace-crawler。
如果您不想自己实现所有这些,则可以使用第三方托管服务通过基于JSON的API访问Android应用元数据。例如,42matters.com(我工作的公司)为Android和iOS提供API以检索应用的元数据,详情请参阅:
https://42matters.com/app-market-data
要获取应用的标题,图标,说明,下载,您可以使用此处记录的“查找”端点:
https://42matters.com/docs/app-market-data/android/apps/lookup
这是“愤怒的小鸟太空高级版”应用程序的JSON响应示例:
{
"package_name": "com.rovio.angrybirdsspace.premium",
"title": "Angry Birds Space Premium",
"description": "Play over 300 interstellar levels across 10 planets...",
"short_desc": "The #1 mobile game of all time blasts off into space!",
"rating": 4.3046236038208,
"category": "Arcade",
"cat_key": "GAME_ARCADE",
"cat_keys": [
"GAME_ARCADE",
"GAME",
"FAMILY_EDUCATION",
"FAMILY"
],
"price": "$1.15",
"downloads": "1,000,000 - 5,000,000",
"version": "2.2.1",
"content_rating": "Everyone",
"promo_video": "https://www.youtube.com/embed/g6AL9YqRHaI?ps=play&vq=large&rel=0&autohide=1&showinfo=0&autoplay=1",
"market_update": "2015-07-03T00:00:00+00:00",
"screenshots": [
"https://lh3.googleusercontent.com/ZmuBQzIy1G74coPrQ1R7fCeKdJmjTdpJhNrIHBOaFyM0N2EYdUPwZaQjnQUtiUDGmac=h310",
"https://lh3.googleusercontent.com/Xg2Aq70ZH0SnNhtSKH7xg9jCfisWgmmq3C7xQbx6YMhTVAIRqlRJeH8GYtjxapb_qR4=h310",
"https://lh3.googleusercontent.com/T4o5-2_UP82sj4fSSegbjrGmslNHlfvtEYuZacXMSOC55-7eyiKySw05lNF1QQGO2FeU=h310",
"https://lh3.googleusercontent.com/f2ennaLdivFu5cQQaVPKsRcWxB8FS5T4Bkoy3l0iPW9-GDDnTVRhvR5kz6l4m8FL1c8=h310",
"https://lh3.googleusercontent.com/H-9M03_-O9Df1nHr2-rUdjtk2aeBY3bAxnqSX3m2zh_aV8-K1t0qU1DxLXnK0GrDAw=h310"
],
"created": "2012-03-22T08:24:00+00:00",
"developer": "Rovio Entertainment Ltd.",
"number_ratings": 20812,
"price_currency": "$",
"icon": "https://lh3.ggpht.com/aQaIEGrmba1ENSEgUtArdm3yhJUug7BRWlu_WaspoJusZyHv1rjlWtYqe_qRjE_Kmh1E=w300",
"icon_72": "https://lh3.ggpht.com/aQaIEGrmba1ENSEgUtArdm3yhJUug7BRWlu_WaspoJusZyHv1rjlWtYqe_qRjE_Kmh1E=w72",
"market_url": "https://play.google.com/store/apps/details?id=com.rovio.angrybirdsspace.premium&referrer=utm_source%3D42matters.com%26utm_medium%3Dapi"
}
我希望这会有所帮助,否则请随时与我联系。我非常了解这个话题,可以指出你正确的方向。
此致
安德烈
答案 1 :(得分:2)
之前我已经完成了Python的工作,你需要的是一个名为selenium的web自动测试库,它可以执行Javascript代码并将结果返回给Python,使用Javascript,你可以点击"显示更多&# 34;按钮由程序本身。当您获得单个类别页面的所有链接时,您可以获得该应用程序的一些信息。简单的演示here。希望对你有所帮助。
答案 2 :(得分:2)