我想确定该网站所属的商家的类别/商家域名。
对于前。超人网站。该公司制作的电子邮件客户端由流行语功能和UI。
因此,简而言之,网站类别可以是专业电子邮件服务。
因此,为了完成这项工作,我的一些首字母的想法是在网站的About_us文本上应用LDA算法(python模块)。公司的Facebook信息页面,因为我们有这两者。但在许多情况下,这种方法仍然无效。任何见解?
LDA详情: 使用20000次传递和1个主题,http://aakritiartgallery.com/网站的结果为
[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]
我如何利用LDA给出的这些术语概率缩小我的业务范围?
答案 0 :(得分:1)
NMF,LSA,LDA是无监督技术,主要用于预处理以提取意义特征。在NLP中,这通常对应于在大量文本中提取有意义的单词。通过使用这些技术,您将能够处理原始数据以获得有意义的功能。这些算法本身并不提供预测,它们通常不足以创建一个好的模型。
在您的情况下,您需要结构化数据来训练模型并进行预测。例如,您可以使用映射到业务域(或您的标签)的LDA结果(您实际上会使用这些关键字的索引)。
即) (标签)IT :(功能)java,python,server (标签)动物园:(特征)猴子,斑马,长颈鹿 (标签)IT :(功能)nlp,机器学习
收集完一些数据后(至少(#features * #label)),您可以训练您选择的监督模型。 (Log Reg,SVM,NN等)
评估您的预测分数并实施算法。
说完这个,这不是一件容易的事。你将不得不处理识别类别/子类别,提取有意义的功能的其他方法等,所以我会在这个项目上花很长时间。祝你好运!
答案 1 :(得分:0)