我正在研究文本分类问题,其中大约有95个数据点,数据看起来像这样(仅显示了两个虚拟条目):
| ID | Location | Emails |
------------------------------------
| AZ12 | UK | Lorem Ipsum |
| MR34 | USA | Lorem Ipsum |
在我目前的方法中,我将数据合并为.csv,以空格分隔(如下所示),并且仅使用一列进行文本分类。
| Merged_columns |
-------------------------
| AZ12 UK Lorem Ipsum |
| MR34 USA Lorem Ipsum |
这种方法似乎对我有用,并且我得到的测试数据的准确度大约为70%。
现在,我正在考虑对我的特征向量(X)的多列执行文本分类,而不是将X向量的所有列合并为一列(例如通过对X向量的各个列执行特征工程,然后将转换后的向量进行级联)在本文中也提到了这种方法:https://towardsdatascience.com/natural-language-processing-on-multiple-columns-in-python-554043e05308)。
现在我的问题是:在NLP方面,两种方法在理论上是等效的。如果后一种方法比我以前的方法能产生更好/最差的结果。 谢谢。