从Python DataFrame中删除HTML标记

时间:2017-02-13 04:20:19

标签: python html pandas nlp

我有一个包含html标签的csv文件。我试图迭代DataFrame以使用以下函数删除html标签,并得到'TypeError:期望字符串或缓冲区'。对此错误的任何帮助将不胜感激。

import re

def clean_html(raw_html):
    for index, row in raw_html.iterrows():
        cleanr = re.compile('<.*?>')
        cleantext = re.sub(cleanr, '', raw_html)
        return cleantext

1 个答案:

答案 0 :(得分:0)

您正在将raw_html变量传递给re.sub函数。尝试传入行数据。

cleantext = re.sub(clean, '', row['a1'])