应用错误收集

我有一个超过10000行的CSV文件。

我正在尝试根据其自然语言将文本分隔在一个特定的列（“ short_desctiption”）中。

大多数文本具有标准格式，例如（德语文本//英文文本），但有时会缺少一种语言或格式不正确。

请提出一种对每种语言的两列进行分类的方法

print(data_sel[['number','short_description']].head(5))

输出看起来像：

       number                                  short_description
0  INC37263694 Internet geht nicht//Internet is not working
1  INC4836555  OUTLOOK Benutzung nicht möglich // unable to user outlook
2  INC3981320  Ich habe Problem emich im Igel anzumelden 
3  INC5579940  forgot password // Hat Kennwort vergessen
4  INC4882640  Agent Desktop doest start, the desktops are changed

双语原始数据的文本分类

0 个答案: