找不到任何将HTML实体保存到CSV文件的解决方案,例如脚本提取此类数据
<li>Key Switch: Blue switch </li>
csv文件中的输出将如下所示
<li>Key Switch: Blue switch </li>
有什么方法可以保存在页面上显示的HTML实体?
答案 0 :(得分:1)
您实际上不需要保存HTML实体。实际上,只有五个HTML实体在HTML中至关重要:<
,>
,&
和次要的"
和'
。所有其他仅仅是便利设施,不是必需品。
当手动编写HTML时,它们可以派上用场,以输入键盘上没有键的字符,或者区分在源代码中看起来与原始字符相同的字符,例如常规空格和不间断空格(
)。
但是-如果您到处都使用正确的字符编码,则完全有可能用它们代表的实际字符替换这些实体。
这正是您在这里遇到的问题。这就是发生的事情:
被转换为非空格字符。这是解析的正常部分,每个HTML解析器都会这样做。0xC2
和0xA0
表示。0xC2
和0xA0
代表两个字符:Â
和具有讽刺意味的是,不间断空格。换句话说,到目前为止一切都是正确的,这是以错误的方式读取破坏了数据。从最有利到最不利的方式来解决这个问题:
UTF-8
的CSV文件。utf-8-sig
,您可以在打开CSV文件进行写入时使用它。