信息提取和文本挖掘有什么区别?

时间:2013-06-22 06:10:05

标签: nlp information-retrieval text-mining information-extraction

看起来很容易。但我很困惑。

文本挖掘和信息提取有什么区别?

2 个答案:

答案 0 :(得分:7)

信息提取

(IE)是从非结构化和/或半结构化机器可读文档中自动提取结构化信息的任务。在大多数情况下,该活动涉及通过自然语言处理(NLP)处理人类语言文本。最近在多媒体文档处理方面的活动,如图像/音频/视频的自动注释和内容提取,可被视为信息提取。

文本挖掘

是从信息资源集合中获取与信息需求相关的信息资源的活动。搜索可以基于元数据或全文索引。

与信息检索相比,文本挖掘是一个广阔的领域。典型的文本挖掘任务包括文档分类,文档聚类,构建本体,情感分析,文档摘要,信息提取等。 信息检索通常涉及对文档进行爬行,解析和索引,检索文档。

Source

答案 1 :(得分:1)

首先让我们来看看这两个重要词汇的含义。

文本挖掘是通过自动分析各种文本资源自动发现新的,以前未知的信息。它首先从文本来源中提取事实和事件,然后形成新的假设,进一步探索通过传统的数据挖掘和数据分析方法。

信息提取更多是NLP(自然语言处理)&机器学习问题,您训练机器从原始文本中提取隐藏信息。

所以差异可以说是 - 与信息提取相比,文本挖掘是一个广阔的领域。 文本挖掘关注在非结构化文本中寻找模式。信息提取(IE)的相关任务是关于在自然语言文档中定位特定项目