我正在尝试获取一长串对象(在本例中为iTunes App Store中的应用程序)并对其进行更具体的分类。例如,目前有很多应用程序被归类为“教育”,但我想将它们标记为生物学,英语,数学等。
这是AI /机器学习问题吗?我在这个领域没有任何背景,但是想要从哪里开始做这些事情的资源或想法。
答案 0 :(得分:3)
是的,你是对的。分类是机器学习问题,基于文本数据对事物进行分类涉及自然语言处理。
规范分类问题是使用朴素贝叶斯分类器进行垃圾邮件检测,这非常简单。这个想法如下:
我强烈推荐使用NLTK,一个python机器学习和nlp库。它非常用户友好,并且有很好的文档和教程,是熟悉该领域的好方法。
编辑:Here's an explanation如何使用代码构建一个简单的NB分类器。
答案 1 :(得分:2)
可能不是。您需要做一些工作来提取某些可用形式的数据(例如名称),并且在一天结束时,可能没有足够的类别可以更容易地手动识别列表每个类别的关键字,并在标题/描述上设置解析器。
例如,您可以查看六个生物学应用程序,并意识到在名称/描述/您可以访问的任何内容中,“细胞”,“生命”和“成长”这两个词经常出现 - 而不是由于一些机器学习,但由于你自己的人类直觉。因此,构建一个解析器,将这些单词作为生物学应用程序进行分类,并为其他类别做类似的事情。
除非您尝试对整个iTunes应用商店进行分类,否则这应该足够了,手动检查具有多个分类或没有分类的任何应用对您来说是一项相对较小的任务。使用简单的解析器+手动检查异常所涉及的劳动可能远远少于构建更复杂的解析器以帮助机器学习,设置机器学习,然后再次检查所有内容所涉及的劳动,因为机器学习不是100%准确