Question

我有一个庞大的数据集需要清理，并且有一个名为comment的列，该列应该只有文本，但其中包含很多空格，绝对是非统一的特殊字符，类似于

 ,.    .....
!!!!.....JR,,,,,!!!
1.....666....888.!!

更多的东西混合在一起，我必须删除包含文本之外的内容的行。

我尝试使用正则表达式编写一个函数，该函数搜索列中除字母之外的所有内容，并尝试根据此内容将其删除。我对python很陌生，如果我离实际答案还很远，请处理数据。

def func(comments):
    for x in comments:
        if x == re.findall(r'\W+',x):
            df.drop(['comments'], inplace = True)
df['comments'].apply(lambda x: func(x))

数据就是这样

ID           reviwer name     reviwer_listing_id        comments
37830          miyuki            83920                wonderful!!
327823         tiooowww          383924                  ....

expected 
ID           reviwer name     reviwer_listing_id        comments
37830          miyuki            83920                wonderful!!

我收到的错误是当我尝试运行此代码时，它向我显示TypeError的错误消息：

'float' object is not iterable

如何根据几种条件从数据集中删除行

0 个答案: