在Powershell中将html文件作为字符串读取

时间:2017-11-15 12:06:50

标签: powershell

我需要读取一个html文件并将内容解析为字符串

从此

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">

<head>
    <meta charset="utf-8">
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>Index</title>
</head>
<body>
    Index
</body>
</html>

到这样的输出

$stringValue = "<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\"\"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">"...

我尝试使用$stringValue = $htmlFile | ConvertTo-Json,但它会将某些字符转换为新代码(&gt; = u003e),我希望保持特殊字符不变。

感谢任何帮助

2 个答案:

答案 0 :(得分:2)

您可以使用以下命令获取html文件的内容,并且可以存储在任何字符串变量中,如下所示。

[string]$Datas = Get-Content [HTML_file_Location]

答案 1 :(得分:0)

尝试将其读作UTF-16,并查看是否根据需要传递输出。这个答案显示了如何将其读作UTF-16。

Reading a "string in little-endian UTF-16 encoding" with BinaryReader