我目前正在尝试提取脚本类型=“text / html”指向的页面。例如,this CNN link在源代码中有一行:
<script type="text/html" id="pageTemplate"></script>
我想下载pageTemplate的内容并能够解析结果。我一直在尝试使用HTML :: TagParser,我可以获得元素pageTemplate,但我无法获取其内容。
答案 0 :(得分:3)
原样,“pageTemplate”没有任何内容。据推测,这是因为它将被用作某些HTML的藏匿处; “text / html”类型的脚本实际上不会做任何事情。即,像这样的<script>
是一个未显示的DOM元素,可以用于任何目的。
一种可能性:http://ejohn.org/blog/javascript-micro-templating/
通过与CNN页面关联的javascript查看有关该ID的用途的线索。