我正在使用 pandas read_html 来读取 html 文件,但遇到了不间断空格的问题。我在结果数据框的列中有数据,该列应包含像“ABCDEF G”这样的字符串(F 和 G 之间的三个空格)。相反,我得到了“ABCDEF G”(F 和 G 之间的一个空格)。当我检查 html 文件时,它显示“ABCDEF G”,因此出于某种原因,这三个不间断空格仅更改为一个空格。 html 中的所有单个不间断空格都可以正常工作。有没有办法解决这个问题,让它保留 F 和 G 之间的三个空格?
答案 0 :(得分:0)
它不优雅,但现在我正在做
with open(htmllink, 'r') as r:
data = r.read().replace(' ', '___')
然后返回并用三个空格替换下划线。仍在寻找更好的方法来执行此操作,但现在应该可以使用。