结构化文本和非结构化文本

时间:2011-05-04 15:18:26

标签: machine-learning artificial-intelligence data-mining

关于数据挖掘,结构化文本和非结构化文本之间有什么区别?在选择/开发用于分析这些不同文本的数据挖掘方法时,有哪些主要考虑因素?

1 个答案:

答案 0 :(得分:2)

我将在这个问题的前言中说,你所处理的具体领域在回答这些类型的问题时非常重要。在问题中添加一些上下文将允许更有用的响应。

在一般情况下,结构化文本和非结构化文本之间的中心差异是结构化文本具有易于消化的形式而非结构化文本不具有的简单事实。对于一些文本挖掘,这可能就像一个词袋模型(每个单词出现多少次?),一直到非常复杂的NLP方法,试图提取更深层次的语言结构,如词性或实体检测/解决。结构化数据的每日示例可以是Twitter上的帖子的元数据(用户名/时间戳/转发信息等),其中相关的非结构化数据将是帖子本身的文本。

在不确切知道您感兴趣的内容的情况下,一个很大的考虑因素是简单的事实,结构化文本通常是简单的机器学习模型的方便形式,而非结构化文本很少,因为它不容易被视为一堆二进制/实值特征,并抛入您最喜欢的统计模型。

希望这有助于提高水平 - 如果我的回答过于宽泛,请随时更新原帖和详细信息=)