我对NLP还是陌生的,所以我尝试学习可以帮助我完成工作的技术。
这是我的任务:我必须根据文本提示对钻孔过程的各个阶段进行分类。
我必须根据“ Com”列中的内容对“活动”,“活动详细信息”,“操作”的标签进行分类。
我已经在线阅读了很多文章,而我所阅读的所有各种技术确实让我感到困惑。
我想理解的流行语是
我得到了大约40,000行数据(我知道这是非常小的),并且我遇到了一篇文章,说如果我进行的训练很少,那么基于Skip-gram的神经网络模型可能不是一个好选择数据。因此,我也正在研究基于频率的方法。总体而言,我不确定哪种技术最适合我。
这是我的理解:
我应该使用哪种方法和技术顺序来解决我的问题?如果有任何开源Jupyter笔记本项目,或链接到完成了类似工作的文章(希望包含代码),请在此处共享。
答案 0 :(得分:2)
让我们弄清楚点。您的任务是创建一个可以预测给定文本标签的系统,对吗?对于非结构化数据(文本),无法进行标签预测(分类)。因此,您需要使数据结构化,然后训练和推断分类器。因此,您需要引入两个独立的系统:
Skip-Gram和共现矩阵是矢量化文本的方法(这里有一个不错的article,解释了它们的区别)。如果使用skip-gram,则可以下载并使用已经将向量映射到大多数单词的第三方模型。如果是共现矩阵,则需要在文本上进行构建(如果您有特定的词汇,这将是更好的方法)。在此矩阵中,您可以使用不同的度量来表示单词与单词或文档与文档的共现程度。 TF-IDF是此类措施之一(为每个单词文档对都给出一个分数);还有很多其他内容(PMI,BM25等)。 article应该有助于对数据进行共现矩阵分类。这个one给出了一个如何使用Word2Vec进行操作的想法。
希望它有所帮助!