是否有一种算法可以提取有意义的英文文本标签

时间:2008-09-15 22:48:31

标签: algorithm tags semantics

我想从任何大小的英文文本中提取减少的“有意义”标签集合(最多10个)。

http://tagcrowd.com/非常有趣,但算法似乎非常基本(只是字数统计)

还有其他现有的算法吗?

7 个答案:

答案 0 :(得分:6)

现有的网络服务。 两个三个例子:

答案 1 :(得分:2)

当你减去人体元素(标记)时,剩下的就是频率。 “忽略常见的英语单词”是下一个最好的过滤器,因为它处理排除而不是包含。我测试了一些网站,它非常准确。实际上没有其他方法可以推导出“意义”,这就是为什么语义网最近得到了如此多的关注。这是一种暗示HTML含义的方式......当然,它也有一个人的因素。

答案 2 :(得分:1)

在文本分类中,此问题称为降维。关于这个主题的文献中有许多有用的算法。

答案 3 :(得分:1)

基本上,这是文本分类问题/文档分类问题。如果您可以访问许多已标记的文档,则可以分析哪些(内容)单词触发哪些标记,然后使用此信息标记新文档。

如果您不想使用机器学习方法并且仍然有文档集,那么您可以使用tf.idf之类的指标来过滤掉有趣的单词。

更进一步,如果同义词的频率更高,您可以使用Wordnet查找同义词并用同义词替换单词。

Manning & Schütze包含更多关于文本分类的介绍。

答案 4 :(得分:1)

您想要执行文字的semantic analysis

词频分析是进行语义分析的最简单方法之一。不幸的是(显然)它是最不准确的。它可以通过使用特殊字典(如synonims或单词形式),常用单词“停止列表”,其他文本(找到那些“常见”单词并排除它们)来改进......

至于其他算法,它们可以基于:

  • 语法分析(如试图在句子中找到主要主语和/或动词)
  • 格式分析(分析标题,粗体文本,斜体......适用时)
  • 参考分析(例如,如果文本在互联网上,那么参考文献可以用几个词来描述它......被一些搜索引擎使用)

但是......你应该明白,这些算法是用于语义分析的mereley启发式算法,而不是实现目标的严格算法。 自第一台计算机出现以来,语义分析问题是人工智能/机器学习研究中的主要问题之一。

答案 5 :(得分:0)

也许“术语频率 - 反向文档频率”TF-IDF会很有用......

答案 6 :(得分:0)

您可以分两步使用它:

1 - 尝试主题建模算法:

  • 潜在的Dirichlet分配
  • 隐藏词嵌入

2 - 之后,您可以选择每个主题中最具代表性的单词作为标签