我有一个超过10000行的CSV文件。
我正在尝试根据其自然语言将文本分隔在一个特定的列(“ short_desctiption”)中。
大多数文本具有标准格式,例如(德语文本//英文文本),但有时会缺少一种语言或格式不正确。
请提出一种对每种语言的两列进行分类的方法
print(data_sel[['number','short_description']].head(5))
输出看起来像:
number short_description
0 INC37263694 Internet geht nicht//Internet is not working
1 INC4836555 OUTLOOK Benutzung nicht möglich // unable to user outlook
2 INC3981320 Ich habe Problem emich im Igel anzumelden
3 INC5579940 forgot password // Hat Kennwort vergessen
4 INC4882640 Agent Desktop doest start, the desktops are changed