我正在尝试从csv文件的文本数据中删除非英语单词。我正在使用Python进行此操作。
我使用以下代码读取了csv文件:
blogdata = pd.read_csv("C:/Users/hyoungm/Downloads/blogdatatest.csv", encoding = 'utf-16', sep = "\t")
print(blogdata)
目前,还剩10179行。
然后,我使用以下代码从数据中删除了非英语单词,特别是在“发布”列中:
blogdata = blogdata[~blogdata['posting'].str.contains(r'[^\x00-\x7F]+')]
print(blogdata)
然后,我只剩下3693行。我认为上面的代码删除了所有包含非英语单词的行。
我正在努力删除那些非英语单词并保存其他部分,以便可以保留尽可能多的行。
我正在以下网站上共享数据集:https://github.com/GemmyMoon/nonenglish
有人可以帮我吗?
提前谢谢!