我有一个包含html标签的csv文件。我试图迭代DataFrame以使用以下函数删除html标签,并得到'TypeError:期望字符串或缓冲区'。对此错误的任何帮助将不胜感激。
import re
def clean_html(raw_html):
for index, row in raw_html.iterrows():
cleanr = re.compile('<.*?>')
cleantext = re.sub(cleanr, '', raw_html)
return cleantext
答案 0 :(得分:0)
您正在将raw_html变量传递给re.sub函数。尝试传入行数据。
cleantext = re.sub(clean, '', row['a1'])