我需要读取一个html文件并将内容解析为字符串
从此
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta charset="utf-8">
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta http-equiv="x-ua-compatible" content="ie=edge">
<meta name="viewport" content="width=device-width, initial-scale=1">
<title>Index</title>
</head>
<body>
Index
</body>
</html>
到这样的输出
$stringValue = "<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\"\"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">"...
我尝试使用$stringValue = $htmlFile | ConvertTo-Json
,但它会将某些字符转换为新代码(&gt; = u003e
),我希望保持特殊字符不变。
感谢任何帮助
答案 0 :(得分:2)
您可以使用以下命令获取html文件的内容,并且可以存储在任何字符串变量中,如下所示。
[string]$Datas = Get-Content [HTML_file_Location]
答案 1 :(得分:0)
尝试将其读作UTF-16,并查看是否根据需要传递输出。这个答案显示了如何将其读作UTF-16。
Reading a "string in little-endian UTF-16 encoding" with BinaryReader