如何使用XSLT从HTML文件中提取元素

时间:2017-02-17 07:13:48

标签: xslt-2.0

INPUT:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"></meta>
<title></title>
<link rel="stylesheet" href="er:#css" type="text/css"></link>
</head>
<body>
<section class="tr_chapter">
    <a name="c.cno171996.2"></a>
    <div class="section-sect1">
        <div class="section-title1">Heading</div>
        <div class="para">Content</div>
    </div>
</section>
</body>
</html>

以上是HTML文件的输入,我想提取锚的属性以及section-title1属性。

有多个HTML文件,我需要从所有这些文件中提取相同的属性,以创建一个类似于下面的XML文件

THE OUTPUT I EXPECT:
<toc>  
<entry s="c.cno171996.2/c.cno171996.2">
  <text>Heading</text>
</entry>
</toc>
<docs>
<doc id="c.cno171996.2" src="c.cno171996.2.html" />
</docs>

有人可以指导我吗?

0 个答案:

没有答案