使用lingpipe进行分类

时间:2011-05-18 06:55:42

标签: classification categorization

作为我学术研究项目的一部分,我正在尝试构建一个应用程序,其中我将从Web检索到一组URL。任务是将这些网址分类为某个类别。

对于Instance,以下网址是关于板球http://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html 如果我将此特定URL提供给分类器,则应将输出类别指定为“Sports”。

为此,我正在使用lingpipe分类器。我已经按照分类教程运行了演示文件夹中的演示。我已经下载了从以下链接下载的20个新闻数据集。 http://people.csail.mit.edu/people/jrennie/20Newsgroups

后来,我将训练样本量从20减少到8,并运行了分类演示。它可以成功地训练数据并且也可以测试数据。

但问题是,每次我想测试文档类别时,是否需要训练分类器? 如果我运行文档分类,则培训和测试数据需要4分钟。

我可以存储一次训练过的数据并多次执行分类吗?

1 个答案:

答案 0 :(得分:4)

您需要将经过训练的模型序列化到磁盘,然后您可以对它们进行反序列化并准备好分类器。

一旦训练好分类器

 AbstractExternalizable.compileTo(classifier,modelFile);

将模型写入磁盘。

要阅读,您需要

AbstractExternalizable.readObject(modelFile);

查看AbstractExternalizable的Java文档。

该模型将无法接受其他培训活动,因为 它已被编译。