解析非均匀数据

时间:2013-03-09 22:16:32

标签: machine-learning information-retrieval data-processing

我正在尝试解析具有两个(或一个)有用部分的数据集合,但可能以多种不同的方式进行组织:

V01C01
Vol 1 Chapter 1
Chapter 1 Volume 1 - Alt title
V1.1
etc.

我不想使用大量的正则表达式,因为没有办法预测所有事情将如何组织的组合(也有一些将有无关的文本)。我觉得有一个机器学习的分支可能是完美的,但我没有足够的经验知道。

1 个答案:

答案 0 :(得分:2)

这肯定是一个有趣的问题,你可以尝试一些。

假设您的数据没有标签,那么我要做的第一件事是使用像k-means(http://en.wikipedia.org/wiki/K-means_clustering)之类的聚类算法检查每个实例之间的连接。 ,请记住,这不会解决您的问题,但会帮助您探索您的数据,并希望找到一组功能来训练有监督的学习分类器。

如果您在您的数据上有标签,或者您可以手动标记您的设置。那么你就是一个更容易管理的问题。乍一看,它看起来很像文本或文档分类问题(比如将电子邮件分类为垃圾邮件/ NoSpam),在这种情况下,一个朴素的贝叶斯分类器可能是一个很好的第一次尝试来解决问题,因为这是一个简单的算法来实现并且可以提供合理的好结果。

关于Naives贝叶斯分类器(https://www.bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html

我在这里做了一些假设,基于此我可能是错的。也许如果你澄清一些要点(比如你是否能够手动标记数据),我们将能够进一步帮助你。