我正在寻找某种可以获取html文档并抽出基于选择器的文件表示的工具。
例如:
<div>
Some text
<ul class="foo">
<li>First</li>
<li>Second</li>
<ul>
</div>
并按照以下精神输出一个平面文本文件:
div
div #text Some text
div ul.foo li Frist
div ul.foo li Second
这样做的目的是创建一种能够比较两个HTML页面的谓词函数,并告诉它们匹配的程度,并明确地能够分别告诉我们有多少内容或布局是不同。
(好奇,这是针对相对较大的数据迁移项目的QA阶段)
答案 0 :(得分:0)
我在另一个论坛上发现了一个名为haml的程序,它似乎正是这样做的。供将来参考: