如何根据几种条件从数据集中删除行

时间:2019-06-25 12:26:09

标签: python database dataset data-science data-cleaning

我有一个庞大的数据集需要清理,并且有一个名为comment的列,该列应该只有文本,但其中包含很多空格,绝对是非统一的特殊字符,类似于

 ,.    .....
!!!!.....JR,,,,,!!!
1.....666....888.!!

更多的东西混合在一起,我必须删除包含文本之外的内容的行。

我尝试使用正则表达式编写一个函数,该函数搜索列中除字母之外的所有内容,并尝试根据此内容将其删除。 我对python很陌生,如果我离实际答案还很远,请处理数据。

def func(comments):
    for x in comments:
        if x == re.findall(r'\W+',x):
            df.drop(['comments'], inplace = True)
df['comments'].apply(lambda x: func(x))

数据就是这样

ID           reviwer name     reviwer_listing_id        comments
37830          miyuki            83920                wonderful!!
327823         tiooowww          383924                  ....

expected 
ID           reviwer name     reviwer_listing_id        comments
37830          miyuki            83920                wonderful!!
我收到的错误是 当我尝试运行此代码时,它向我显示TypeError的错误消息:

'float' object is not iterable

0 个答案:

没有答案