我想创建一个模型,该模型提供了一系列从公司描述中提取的关键字,并对“'类型”进行了分类。该公司的。让我用一个例子来说明。
" Snapchat是由Evan Spiegel,Bobby Murphy和Reggie Brown创建的图像信息和多媒体移动应用程序,[3]斯坦福大学的前学生,由Snap Inc.开发,最初是Snapchat Inc.&# 34;
示例提取的关键字:"图像消息传递" ; "多媒体移动应用"
(来自Snapchat上的维基百科页面)
根据这些信息,我的模型需要推断出IT'和' SNS'来自"图片信息"和"多媒体移动应用"。
(如果您问为什么不使用提取的关键字,我想将它们归类为所有公司尽可能少的标签,因此' IT' SNS&#39 ;与“图像消息传递”等相比,是更通用的术语。)
目前,我的数据集不是太大。对于大约数百个数据条目,大约80%包含我想要的信息。鉴于此信息,我想处理从公司描述中提取的关键字并给出正确的标签。
任何帮助我参与这个项目的建议都会很棒。
答案 0 :(得分:0)
如果您要定位特定域的公司,那么使用小型数据集可能会对您有所帮助。所以,您可以遵循一种方法:
使用提取的关键字的预训练字嵌入(例如来自Glove)并找到公司的嵌入。这就像从单词嵌入构建短语或句子表示。让我们把它命名为公司嵌入!类似的公司应该有类似的嵌入。所以,最终的想法是形成像我们在单词嵌入中看到的Google - Ford = Microsoft - Tesla
这样的关系。您甚至可以使用嵌入来考虑其他有趣的算术关系,例如Google = search engine + youtube + android
,其中右侧术语是提取的关键字。
您需要company type
信息才能进一步分类,但使用任何机器学习分类器都应该非常简单。您可以使用简单的文本分类器来实现您的总体目标,但使用NLP技术实现这一目标会很有趣。