使用文本挖掘进行分类 - 按值与关键字

时间:2013-09-17 21:35:22

标签: data-mining classification text-mining web-mining

我有一个与城市经济高度相关的分类问题。我有自由文本中的非结构化数据,如人口,收入中位数,就业等。是否可以使用文本挖掘来理解文本中的值并进行分类。大多数文本挖掘文章如果已阅读使用关键字或短语计数进行分类。我希望能够根据文本的含义与文本的频率进行分类。这可能吗?

BTW,我目前使用的是RapidMiner和R.不确定这是否适用于其中任何一种?

提前致谢, 约翰

2 个答案:

答案 0 :(得分:0)

是的,这可能是可能的。

但不,我不能给你一个简单的解决方案,你必须收集很多经验并自己试验。没有适用于每个人的按钮式魔术解决方案。

由于你的问题过于宽泛,我认为没有比“是的,这可能有可能”更好的答案,抱歉。

答案 1 :(得分:0)

您可以将这些视为两个独立的问题。

  1. 从非结构化数据中提取信息。
  2. 分类
  3. 有几种方法可以从文本中挖掘特定功能。另一方面,您也可以直接使用词袋方法直接分类并查看结果。根据您的问题,分类器可能只从文本功能中学习。

    您还可以使用PCA或类似功能查找所有重要功能,然后运行挖掘过程来提取这些功能。

    所有这一切都取决于你的问题太宽泛和模糊。