Java中半结构化数据的贝叶斯分类

时间:2012-09-11 06:24:21

标签: java filtering bayesian classification

我想训练并使用贝叶斯分类器来处理以下情况:

  • 半结构化数据 - 基本上是XML架构
  • 信息包含在多个纯文本字段中
  • 架构的某些字段/部分可以重复任意次数

分类本身相当简单 - 基本上我需要文档属于特定类别的概率。

设计约束:

  • 解决方案必须是开源的,或者根据其他免版税许可提供
  • 必须可以保存/加载分类器以备将来使用
  • 必须可以将此库嵌入更大的基于Java的应用程序中(即必须使用Java / JVM库)

是否有符合此要求的图书馆/工具?

1 个答案:

答案 0 :(得分:1)

我不确定您是否已准备好分类器,但我已将Apache UIMA框架用于几个抽屉项目。 UIMA是"只是"一个框架,但确实带有一些logic。一些重型的谷歌搜索提出example bayesian classifier using UIMA

它具有在运行时修改配置的机制,但我还有点不清楚你的意思是"保存和加载分类器"。这是否意味着您有一个想要在运行时加载(和卸载)的二进制分类器数组,或者您是否有要加载/卸载的不同模型?

您的其他问题的答案是:

  • 是的,UIMA是开源的,在ASLv2下发布
  • 是的,您可以将UIMA作为库嵌入您的应用程序中。