双语原始数据的文本分类

时间:2019-05-06 23:46:52

标签: python-3.x text-processing knn

我有一个超过10000行的CSV文件。

我正在尝试根据其自然语言将文本分隔在一个特定的列(“ short_desctiption”)中。

大多数文本具有标准格式,例如(德语文本//英文文本),但有时会缺少一种语言或格式不正确。

请提出一种对每种语言的两列进行分类的方法

print(data_sel[['number','short_description']].head(5))

输出看起来像:

       number                                  short_description
0  INC37263694 Internet geht nicht//Internet is not working
1  INC4836555  OUTLOOK Benutzung nicht möglich // unable to user outlook
2  INC3981320  Ich habe Problem emich im Igel anzumelden 
3  INC5579940  forgot password // Hat Kennwort vergessen
4  INC4882640  Agent Desktop doest start, the desktops are changed

0 个答案:

没有答案