用python清理文本

时间:2019-01-29 15:02:56

标签: python

我想删除所有带有数字的单词,并使所有单词变为小写。 代码为:

#remove words with numbers
import re
lower_alpha = lambda x: re.sub(r\"\"\"\\w*\\d\\w*\"\"\", ' ', x.lower())
data['reviews'] = data.reviews.map(lower_alpha)
data.head()

但是错误显示为:

  

lower_alpha = lambda x:re.sub(r \“ \” \“ \ w * \ d \ w * \” \“ \”,'',   x.lower())^

     

SyntaxError:换行符后出现意外字符

文本中有一些无用的
,我使用以下代码将其删除:

#remove <br>    
remove_br = lambda x: re.sub(r\"\"\" br \"\"\", ' ', x.lower())
data['reviews'] = data.reviews.map(remove_br)
data.head()

错误显示:

  

remove_br = lambda x:re.sub(r \“ \” \“ br \” \“ \”,'',x.lower())^   SyntaxError:续行字符后出现意外字符

与上一个几乎相同。那么,有谁能帮助我找出这些问题是什么地方?

数据框是一个Excel工作表,例如: User_id星级评论

  • User_id星级评论
  • xxx 5 xxxxx
  • xxx 5 xxxxx
  • xxx 5 xxxxx
  • xxx 4 xxxxx
  • ... .. .....

1 个答案:

答案 0 :(得分:0)

您有一个r\"\"\"\\w*\\d\\w*\"\"\"错字—首先\以特殊方式处理。您使用的是原始字符串吗,只要加上r'\"\"\\w*\\d\\w*\"\"\"'(如果它符合您的逻辑)