如何从网页/ Feed中获取代码/关键字?

时间:2010-06-21 10:17:19

标签: python tags visualization keyword

我必须从网页/ Feed中构建标签云。一旦获得标签的频率表,就可以轻松构建tagcloud。但我怀疑的是如何从网页/ Feed中检索标签/关键字?

这就是我现在正在做的事情:

获取内容 - >剥离HTML - >用\ s \ n \ t(空格,换行符,制表符)拆分它们 - >关键字列表

但这并不好用。

有更好的方法吗?

1 个答案:

答案 0 :(得分:0)

你所拥有的是粗略的一阶逼近。我想如果你然后回顾数据并搜索2个单词短语的频率,然后搜索3个单词短语,直到可以被认为是标签的单词总数,你将更好地表示关键词频率。

您可以通过指定可以包含在短语(代词等)中的某些单词来优化此粗略搜索模式。