动态类集的多标签分类限制

时间:2014-09-05 07:15:18

标签: machine-learning multilabel-classification

我手头有一个问题陈述,我需要知道它是否可以通过机器学习来解决。它是这样的: -

我有一个用户可以上传文档的系统,所以我们假设我们有一个名为的文件 xxxZxxx.xxx

用户将多个级别放入系统的文件夹结构并放置文件,(比如说) A / B / C / d / Z / xxxZxxx.xxx

  

我们需要建立一个读取文件名并建议的系统   放置它的路径。

在这种情况下,文件名包含路径的最后一部分,它是一个Business Object目录,但可能不包含。我们有这样的路径和文件,顺序为10 ^ 5.

新的路径即业务对象可以随时间添加,这使得这是一个多类别的分类,大约有10 ^ 5个类继续增加

这可以解决吗?

我尝试使用一袋角色(灵感来自于文字袋)作为失败的特征向量。

对此可以遵循的任何方法有何评论?如果需要任何其他信息,请告诉我,我将编辑问题或更改标签。

1 个答案:

答案 0 :(得分:0)

因此,为了使其成为真正的ML问题,请回答以下问题:

1)为什么你不能只读取文件名并获取需要放置文件的chid文件夹?是因为你说的用户可能没有证明子文件夹的名称作为文件名的一部分?或者是因为可能有许多目录具有用户提供的名称?

2)ML问题通常具有统计性​​的模式,这些模式难以用简单的肉眼识别,例如使用正则表达式。在这里,您可以使用正则表达式搜索轻松找到相应的文件夹,不是吗?