将HTML文档转换为基于选择器的索引文件

时间:2009-09-18 22:15:17

标签: html css xpath css-selectors

我正在寻找某种可以获取html文档并抽出基于选择器的文件表示的工具。

例如:

<div>
Some text
  <ul class="foo">
    <li>First</li>
    <li>Second</li>
  <ul>
</div>

并按照以下精神输出一个平面文本文件:

 div
 div #text Some text
 div ul.foo li Frist
 div ul.foo li Second

这样做的目的是创建一种能够比较两个HTML页面的谓词函数,并告诉它们匹配的程度,并明确地能够分别告诉我们有多少内容或布局是不同。

(好奇,这是针对相对较大的数据迁移项目的QA阶段)

1 个答案:

答案 0 :(得分:0)

我在另一个论坛上发现了一个名为haml的程序,它似乎正是这样做的。供将来参考:

http://wiki.rubyonrails.org/howtos/templates/haml