具有多个列和合并列的特征向量X上的文本分类

时间:2018-07-17 10:55:31

标签: text nlp classification text-classification

我正在研究文本分类问题,其中大约有95个数据点,数据看起来像这样(仅显示了两个虚拟条目):

                           |   ID    | Location |  Emails     |
                           ------------------------------------
                           |  AZ12   |    UK    | Lorem Ipsum |
                           |  MR34   |    USA   | Lorem Ipsum |

在我目前的方法中,我将数据合并为.csv,以空格分隔(如下所示),并且仅使用一列进行文本分类。

                                |     Merged_columns    |
                                -------------------------
                                |  AZ12 UK Lorem Ipsum  |
                                |  MR34 USA Lorem Ipsum |

这种方法似乎对我有用,并且我得到的测试数据的准确度大约为70%。

现在,我正在考虑对我的特征向量(X)的多列执行文本分类,而不是将X向量的所有列合并为一列(例如通过对X向量的各个列执行特征工程,然后将转换后的向量进行级联)在本文中也提到了这种方法:https://towardsdatascience.com/natural-language-processing-on-multiple-columns-in-python-554043e05308)。

现在我的问题是:在NLP方面,两种方法在理论上是等效的。如果后一种方法比我以前的方法能产生更好/最差的结果。 谢谢。

0 个答案:

没有答案