INPUT:
<!DOCTYPE html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"></meta>
<title></title>
<link rel="stylesheet" href="er:#css" type="text/css"></link>
</head>
<body>
<section class="tr_chapter">
<a name="c.cno171996.2"></a>
<div class="section-sect1">
<div class="section-title1">Heading</div>
<div class="para">Content</div>
</div>
</section>
</body>
</html>
以上是HTML文件的输入,我想提取锚的属性以及section-title1属性。
有多个HTML文件,我需要从所有这些文件中提取相同的属性,以创建一个类似于下面的XML文件
THE OUTPUT I EXPECT:
<toc>
<entry s="c.cno171996.2/c.cno171996.2">
<text>Heading</text>
</entry>
</toc>
<docs>
<doc id="c.cno171996.2" src="c.cno171996.2.html" />
</docs>
有人可以指导我吗?