来自GooglePlay输出的Python过滤器包名称

时间:2016-11-09 20:40:46

标签: python search filter beautifulsoup bs4

我尝试从GooglePlay中的搜索过滤包名称。因此用户键入“Facebook”,我的脚本识别包名称。 我试着用BeautifulSoup4做这件事。我认为这是最佳解决方案。

所以.. 这是我试过的代码

br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'chrome')]

term = "faceboook"
query = "http://play.google.com/store/search?q="+term

htmltext = br.open(query).read()

soup = BeautifulSoup(htmltext)

search = soup.findAll("div", class_="card-content id-track-click id-track-impression")

print search

输出:

[<div class="card-content id-track-click id-track-impression" data-docid="com.facebook.katana" (and so on)

我如何获得包裹名称?我真的不知道怎么做。我已经阅读了一些关于BeautifulSoup的文档,但我不明白我是如何使用这个扩展的。

提前谢谢你,并为这个糟糕的英语而烦恼!

1 个答案:

答案 0 :(得分:1)

根据我的理解,您可以/应该获得data-docid属性的值:

[item.get("data-docid", "n/a") for item in search]