Html Agility Pack:替换脚本标签

时间:2016-07-05 18:32:59

标签: c# html html-agility-pack

我想用它的代码替换html字符串中的JQuery script标记。表示删除script标记,并将src属性设置为例如" scripts / jquery-1.9.1.js"到包含JQuery当前源代码的script标记。

我使用以下代码创建一个新节点:

HtmlNode node = new HtmlNode(HtmlNodeType.Element, htmlDocument, index);
node.Name = "script";
node.PrependChild(HtmlNode.CreateNode(jQuerySourceCodeString));

无论我对jQuerySourceCodeString做什么,它总是被截断为:

<script>/*!
 * jQuery JavaScript Library v1.9.1
 * http://jquery.com/
 *
 * Includes Sizzle.js
 * http://sizzlejs.com/
 *
 * Copyright 2005, 2012 jQuery Foundation, Inc. and other contributors
 * Released under the MIT license
 * http://jquery.org/license
 *
 * Date: 2013-2-4
 */
(function( window, undefined ) {

// Can't do this because several apps including ASP.NET trace
// the stack via arguments.caller.callee and Firefox dies if
// you try to trace through "use strict" call chains. (#13335)
// Support: Firefox 18+
//"use strict";
var
    // The deferred used on DOM ready
    readyList,

    // A central reference to the root jQuery(document)
    rootjQuery,

    // Support: IE</script>

这显然不是我们可以找到的代码here

我做错了什么?

更新:

1 - 我无法使用InnerHtml因为它试图将其作为html读取。

2 - HtmlNode.CreateNode方法在找到&#34;&lt;&#34;时会中断,它认为它是标记的开头,但不是。

2 个答案:

答案 0 :(得分:3)

考虑到你的问题是如何将script节点附加到已解析的html文档(,因为你要删除现有的脚本节点,从脚本src的uri中检索源,并添加一个新的一个结果),我创建了一个样本来重现你想要做的事情。

  1. 我拿了cdn for jquery 1.9.1并将其保存到本地文件
  2. 然后我尝试将其附加到script节点
  3. 下的html文档中

    我尝试了HtmlAgilityPack的一些尝试,但生成的html总是有一个尾随垃圾,看起来像

    </div></10></=></9></=8></"></$1></(?!area|br|col|embed|hr|img|input|link|meta|param)(([\w:-]+)[^></(?:"></use></9></table></tfoot></thead></tbody></table></tbody></9></=></"></[\w\w]+></tag></\></([\w-]+)\s*\></number></9></9></1.9.8+></10></=8></script>
    

    然后我放弃并尝试了另一个我经常使用的html解析器 - AngleSharp。 有了它,我得到了一个正确的结果html。

    以下是两次尝试的代码段:

    <强> HtmlAgilityPack:

    string html = @"
        <html>
        <head><title>SO Question</title></head>
        <body>
            <div>
                text text text
            </div>
        </body>
    
        <script>
            var a = 10;
        </script>
        </html>
    ";
    
    var jsCode = File.ReadAllText("D:/jquery-1.12.4.js", Encoding.UTF8);
    
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(html);
    
    HtmlNode jsNode = new HtmlNode(HtmlNodeType.Element, doc, 0);
    jsNode.Name = "script";
    jsNode.InnerHtml = jsCode;
    
    doc.DocumentNode.InsertAfter(jsNode, doc.DocumentNode.SelectSingleNode("body"));
    
    File.WriteAllText("D:/jsCodeOut.html", doc.DocumentNode.InnerHtml);
    

    <强> AngleSharp:

    string html = @"
        <html>
        <head><title>SO Question</title></head>
        <body>
            <div>
                text text text
            </div>
        </body>
    
        <script>
            var a = 10;
        </script>
        </html>
    ";
    
    var jsCode = File.ReadAllText("D:/jquery-1.12.4.js", Encoding.UTF8);
    
    HtmlParser hp = new HtmlParser();
    var parsedHtml = hp.Parse(html);
    
    var scriptNode = parsedHtml.CreateElement("script");
    scriptNode.InnerHtml = jsCode;
    
    parsedHtml.DocumentElement.AppendChild(scriptNode);
    
    File.WriteAllText("D:/angleSharpOutput.html", parsedHtml.DocumentElement.InnerHtml);
    

    <强>结论:

    如果您需要专门使用HtmlAgilityPack,那么我的帖子最终没有任何帮助。否则,请尝试AngleSharp并解决您的问题。

答案 1 :(得分:0)

使用internal static string GetMMMYYFromYYYYMM(String YYYYMMVal) { DateTime intermediateDate = DateTime.ParseExact(YYYYMMVal, "yyyyMM", CultureInfo.InvariantCulture); return intermediateDate.ToString("MMMyy"); } ,您可以使用textNode:

HtmlAgilityPack