我有一个庞大的数据集需要清理,并且有一个名为comment的列,该列应该只有文本,但其中包含很多空格,绝对是非统一的特殊字符,类似于
,. .....
!!!!.....JR,,,,,!!!
1.....666....888.!!
更多的东西混合在一起,我必须删除包含文本之外的内容的行。
我尝试使用正则表达式编写一个函数,该函数搜索列中除字母之外的所有内容,并尝试根据此内容将其删除。 我对python很陌生,如果我离实际答案还很远,请处理数据。
def func(comments):
for x in comments:
if x == re.findall(r'\W+',x):
df.drop(['comments'], inplace = True)
df['comments'].apply(lambda x: func(x))
数据就是这样
ID reviwer name reviwer_listing_id comments
37830 miyuki 83920 wonderful!!
327823 tiooowww 383924 ....
expected
ID reviwer name reviwer_listing_id comments
37830 miyuki 83920 wonderful!!
我收到的错误是
当我尝试运行此代码时,它向我显示TypeError的错误消息:
'float' object is not iterable