数据挖掘和文本挖掘之间有什么区别?两者都指将非结构化数据提取到结构化数据。 这两种形式都以同样的方式运作吗?
答案 0 :(得分:2)
数据类型多于文本。
许多数据是结构化的。许多分析流水线,即使在文本挖掘中也包含预处理步骤来构建数据(例如,在向量空间模型中编码文本)。然后应用经典的结构化分析方法(例如球形k-means),这些方法最初与文本无关。
有人可能会争辩说,文本挖掘的大部分内容都是将数据挖掘应用于特殊的文本案例。 (但当然不是全部;并且在文本中首先使用了许多技术,然后在其他数据中使用)。
考虑使用亚马逊使用的产品推荐。这不是基于文本的主要内容,而是基于用户产品矩阵(一起购买,由同一用户点击)。这实际上是一个非常强大的结构。
答案 1 :(得分:1)
数据挖掘通常从数据库中提取知识(或发现大型数据集中的模式)。否则,文本挖掘是文本领域中的特定数据挖掘。
例如,数据挖掘可以提取一起购买的购物篮中的常见产品的模式。在自然语言处理(NLP)的情况下,可以发现用于提取某些类型的实体(地点,人等)的单词类型。答案 2 :(得分:-1)
数据挖掘主要用于将此类数据(“文本数据”和“非文本数据”,如数字,关系数据和视频数据)转换为“可操作的知识”。
因此您可以将“文本挖掘”视为“数据挖掘”中的子组。