Question

我正在使用 pandas read_html 来读取 html 文件，但遇到了不间断空格的问题。我在结果数据框的列中有数据，该列应包含像“ABCDEF G”这样的字符串（F 和 G 之间的三个空格）。相反，我得到了“ABCDEF G”（F 和 G 之间的一个空格）。当我检查 html 文件时，它显示“ABCDEF G”，因此出于某种原因，这三个不间断空格仅更改为一个空格。 html 中的所有单个不间断空格都可以正常工作。有没有办法解决这个问题，让它保留 F 和 G 之间的三个空格？

Answer 1

它不优雅，但现在我正在做

 with open(htmllink, 'r') as r: 
        data = r.read().replace('&nbsp;&nbsp;&nbsp;', '___')

然后返回并用三个空格替换下划线。仍在寻找更好的方法来执行此操作，但现在应该可以使用。

熊猫 read_html 问题与 &nbsp

1 个答案: