我想自动为我的内容创建标签。将有一个恒定的标签列表,机器人应该创建关于它的标签。我怎样才能做到这一点?你知道上课吗?任何建议将不胜感激!
谢谢!
答案 0 :(得分:1)
你需要标签有多好?
你可以简单地计算n-gram字频率。 通过一些调整,这可以创建完全有效的标签,例如用于博客帖子。
如果您正在寻找更高级的内容,并且您拥有一组文档,则可以使用 TF * IDF (术语频率,反向文档频率)。这将显示1文档中提到的有意义的关键字,基于它们不可能出现在其他文档中。如果你的语料库足够大,它会给你很好的结果。
快捷方法可能是识别内容的相关部分(标题?类别?来源?)并使用类似的内容。
另外Yahoo has a term extraction API你可能会感兴趣。