我尝试从GooglePlay中的搜索过滤包名称。因此用户键入“Facebook”,我的脚本识别包名称。 我试着用BeautifulSoup4做这件事。我认为这是最佳解决方案。
所以.. 这是我试过的代码
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'chrome')]
term = "faceboook"
query = "http://play.google.com/store/search?q="+term
htmltext = br.open(query).read()
soup = BeautifulSoup(htmltext)
search = soup.findAll("div", class_="card-content id-track-click id-track-impression")
print search
输出:
[<div class="card-content id-track-click id-track-impression" data-docid="com.facebook.katana" (and so on)
我如何获得包裹名称?我真的不知道怎么做。我已经阅读了一些关于BeautifulSoup的文档,但我不明白我是如何使用这个扩展的。
提前谢谢你,并为这个糟糕的英语而烦恼!
答案 0 :(得分:1)
根据我的理解,您可以/应该获得data-docid
属性的值:
[item.get("data-docid", "n/a") for item in search]