熊猫 read_html 问题与 &nbsp

时间:2021-03-18 20:26:38

标签: python html pandas non-breaking-characters

我正在使用 pandas read_html 来读取 html 文件,但遇到了不间断空格的问题。我在结果数据框的列中有数据,该列应包含像“ABCDEF G”这样的字符串(F 和 G 之间的三个空格)。相反,我得到了“ABCDEF G”(F 和 G 之间的一个空格)。当我检查 html 文件时,它显示“ABCDEF G”,因此出于某种原因,这三个不间断空格仅更改为一个空格。 html 中的所有单个不间断空格都可以正常工作。有没有办法解决这个问题,让它保留 F 和 G 之间的三个空格?

1 个答案:

答案 0 :(得分:0)

它不优雅,但现在我正在做

 with open(htmllink, 'r') as r: 
        data = r.read().replace('   ', '___')

然后返回并用三个空格替换下划线。仍在寻找更好的方法来执行此操作,但现在应该可以使用。