如何从csv文件中的文本数据中删除非英语单词(Python)

时间:2019-04-10 03:06:07

标签: python non-english

我正在尝试从csv文件的文本数据中删除非英语单词。我正在使用Python进行此操作。

我使用以下代码读取了csv文件:

blogdata = pd.read_csv("C:/Users/hyoungm/Downloads/blogdatatest.csv", encoding = 'utf-16', sep = "\t")
print(blogdata)

目前,还剩10179行。

然后,我使用以下代码从数据中删除了非英语单词,特别是在“发布”列中:

blogdata = blogdata[~blogdata['posting'].str.contains(r'[^\x00-\x7F]+')]
print(blogdata)

然后,我只剩下3693行。我认为上面的代码删除了所有包含非英语单词的行。

我正在努力删除那些非英语单词并保存其他部分,以便可以保留尽可能多的行。

我正在以下网站上共享数据集:https://github.com/GemmyMoon/nonenglish

有人可以帮我吗?

提前谢谢!

0 个答案:

没有答案