答案 0 :(得分:6)
现有的网络服务。 两个三个例子:
答案 1 :(得分:2)
当你减去人体元素(标记)时,剩下的就是频率。 “忽略常见的英语单词”是下一个最好的过滤器,因为它处理排除而不是包含。我测试了一些网站,它非常准确。实际上没有其他方法可以推导出“意义”,这就是为什么语义网最近得到了如此多的关注。这是一种暗示HTML含义的方式......当然,它也有一个人的因素。
答案 2 :(得分:1)
在文本分类中,此问题称为降维。关于这个主题的文献中有许多有用的算法。
答案 3 :(得分:1)
基本上,这是文本分类问题/文档分类问题。如果您可以访问许多已标记的文档,则可以分析哪些(内容)单词触发哪些标记,然后使用此信息标记新文档。
如果您不想使用机器学习方法并且仍然有文档集,那么您可以使用tf.idf之类的指标来过滤掉有趣的单词。
更进一步,如果同义词的频率更高,您可以使用Wordnet查找同义词并用同义词替换单词。
Manning & Schütze包含更多关于文本分类的介绍。
答案 4 :(得分:1)
您想要执行文字的semantic analysis。
词频分析是进行语义分析的最简单方法之一。不幸的是(显然)它是最不准确的。它可以通过使用特殊字典(如synonims或单词形式),常用单词“停止列表”,其他文本(找到那些“常见”单词并排除它们)来改进......
至于其他算法,它们可以基于:
但是......你应该明白,这些算法是用于语义分析的mereley启发式算法,而不是实现目标的严格算法。 自第一台计算机出现以来,语义分析问题是人工智能/机器学习研究中的主要问题之一。
答案 5 :(得分:0)
也许“术语频率 - 反向文档频率”TF-IDF会很有用......
答案 6 :(得分:0)
您可以分两步使用它:
1 - 尝试主题建模算法:
2 - 之后,您可以选择每个主题中最具代表性的单词作为标签