自动标记算法

时间:2010-12-20 13:49:31

标签: algorithm tags

有谁知道如何构建自动标记(博客文章/文档)算法?任何例子都将不胜感激。

2 个答案:

答案 0 :(得分:0)

我同意Wooble所说的话。然而,天真的解决方案是简单地编写一种算法来计算给定博客文章与文本语料库相比的词汇相似性和差异性。这种词汇差异将为您提供在博客文章中找到的单词,其频率高于在语料库中找到的单词。从这些词语中,您可以推断出一个标签。

但我强烈建议不要这样做。自动标记似乎在实践中不起作用。只需将标记工作外包给您的用户或Mechanical Turk

等服务

答案 1 :(得分:0)

迟到的回复,但也有一个课程的任务 - 所以如果其他人正在寻找探索这个,这里是一个起点:

如果您正在寻找简单的解决方案或者作为机器学习练习,您可以将自动标记视为文本分类/分类任务。朴素贝叶斯分类器是一个很容易理解的工具,有很多伪代码和材料可以理解这些。 TFIDF(术语频率 - 逆文档频率)度量是您可以查看的其他内容 - 尽管通常与信息检索相关联,但是当与其他机器学习技术结合时,它可以用于该问题。

但是,您不必根据NB分类器的定义为新样本分配单个标签,而是必须确定多个标签。您可以使用训练集中的标记共现信息来帮助您解决此问题。

这是一个简单而天真的解决方案,并且有很多关于特征选择的细节(源于减少独立参数,信息增益等)。关于这个研究课题的大量易于阅读的论文可以尝试一下!