我必须从网页/ Feed中构建标签云。一旦获得标签的频率表,就可以轻松构建tagcloud。但我怀疑的是如何从网页/ Feed中检索标签/关键字?
这就是我现在正在做的事情:
获取内容 - >剥离HTML - >用\ s \ n \ t(空格,换行符,制表符)拆分它们 - >关键字列表
但这并不好用。
有更好的方法吗?
答案 0 :(得分:0)
你所拥有的是粗略的一阶逼近。我想如果你然后回顾数据并搜索2个单词短语的频率,然后搜索3个单词短语,直到可以被认为是标签的单词总数,你将更好地表示关键词频率。
您可以通过指定可以包含在短语(代词等)中的某些单词来优化此粗略搜索模式。