如何通过文本文档链接其中包含关系的条款(关键字实体)。当您搜索显示与该人相关的其他人推荐的人时,示例为 google 。
在这张图片中,它找出了配偶,总统候选人和同等指定
我正在使用频率计数技术。同一文件中出现的两个词出现的可能性越大,他们就越有可能建立某种关系。但是,这也会在文本文档中链接不相关的术语,如页面标记,动词和页面引用。
我应该如何改进它,还有其他简单但可靠的技术吗?
答案 0 :(得分:1)
你应该看一些技巧
1。)停止词过滤:在文本挖掘中常见的两个过滤词通常不是很重要,因为它们是两个频繁的。与the
,a
,is
等相同。有预定义的词典。
2。) TF / IDF :TF / IDF重新衡量他们分开文件的数量。
3。)命名实体识别:对于您手头的任务,仅关注名称可能就足够了。命名实体识别可以从文档中提取名称
4.。线性Dirichlet分配:LDA在文档中找到概念。概念是一组经常出现在一起的单词。