如何从Stack Exchange上的问题中抓取标签信息

时间:2014-09-03 12:32:51

标签: python tags extract

我的问题是我想要从某个(有点小的)Stack Exchange创建所有问题,答案,最重要的是标签的数据库。标签之间的关系(例如,通常一起使用的标签具有强烈的关系)可以揭示社区的结构以及某些子字段的受欢迎程度或兴趣。

那么,通过一系列问题(排名积极)并使用Python提取标签信息的最简单方法是什么?

3 个答案:

答案 0 :(得分:2)

获取所有问题的共享标记计数的最简单方法是使用Stack Exchange API

import requests

r = requests.get(
    'http://api.stackexchange.com/2.2/tags/python/related?pagesize=3&site=stackoverflow')

for item in r.json()['items']:
   print("{name} shares {count} tags with Python".format(**item))

如果这不能满足您的需求,还有许多其他API查询可用。

答案 1 :(得分:0)

访问该网站以查找显示所需信息的网址,然后查看网页来源以了解其格式。

答案 2 :(得分:0)

  1. 要抓取页面,请使用urllib2库。
  2. 使用BeautifulSoup库解析文本。
  3. 将数据放入数据库。
  4. 困难的是构建数据库并开发显示所需内容的查询。