我正在建立一个网站,对IT问题进行分类。
如何获取stackoverflow上使用的所有标记的内容?
我需要使用相同内容的相同标记功能,但需要单独使用。
如何提取所有标签的内容? (应该是几千)
答案 0 :(得分:10)
您可以使用Stack Exchange Data Explorer收集此类信息。
下面的query会提取所有标签,摘录及其维基内容:
select
t.tagName,
e.body as 'Excerpt',
w.body as 'WikiBody'
from tags t
left join Posts e
on t.ExcerptPostId = e.Id
left join Posts w
on t.WikiPostId = w.Id
order by t.tagName
在这篇文章发布时,这将返回42,553行。
请注意,并非所有代码都有摘录或维基内容。
答案 1 :(得分:1)
我根据@andy 的回答开发并收集了每个标签的同义词
select e.id,
count(t.tagName),
string_agg(TagSynonyms.SourceTagName, ',') as synonyms,
t.tagName,
e.body as 'Excerpt',
w.body as 'WikiBody'
from tags t
left join Posts e
on t.ExcerptPostId = e.Id
left join Posts w
on t.WikiPostId = w.Id
left join TagSynonyms
on TagSynonyms.TargetTagName = t.tagName
group by t.tagName, e.body, w.body, e.id
order by count(t.tagName) desc
链接是 here