我正在开展一个需要应用机器学习的项目:我的问题是:
1)我是否正确嵌套聚类适合此问题陈述,我想到的算法在这种情况下是正确的
2)如果没有,那么建议我应该实施哪种算法
问题陈述:假设我们有一个表单,用户可以在其中输入公司可能发生的问题。因此,如果不提及部门名称(仅从问题/问题),机器必须集中与每个部门/类别相关的问题,如财务部门,人力资源部门等。
现在,在每个部门/类别中,可能存在许多可能指向同一问题的问题,如:
在人力资源部门,很多人都报告了这个问题:
-Temp今天太高了 - 这是47 C,但我想要27 C - 人力资源部门内部过于温暖等。
所以,我认为应该实施层次化聚类,首先是为了让每个部门都有相关问题的集群,然后在每个部门集群中再次出现类似的问题。
此外,初始类别/部门未得到修复,因此无法应用具有聚类的分类。
希望我的问题很清楚。任何线索,无论我是做得对还是需要再考虑这个问题的解决方案。
提前致谢
答案 0 :(得分:0)
在商业方面,这种策略的运作尚不清楚。如果传真没有被广泛使用,您可能会有一组传真问题,但您没有检测到,因为每个部门只有少数人使用传真。
实际上,您首先需要高级自然语言处理。 47 C是房间号还是温度? “这是一个烤箱”也适合这个类别。加利福尼亚人也会理解“感觉就像死亡谷”,但不是每个人都会意识到这是对热量的抱怨,更不用说机器了。另一个这样的例子:“空气被打破” - 以投诉形式,这将是空调。
总的来说,我看到的最大的问题是“部门”课程被严重不足。你是在抱怨部门中存在的问题(人力资源部门很热),还是你提到必须修理的部门(从设施派人,这里太热了)