我希望将任何网页逆向工程化为页面的逻辑表示。 例如,如果一个网页有一个菜单,那么我想要一个逻辑菜单结构,也许是XML。如果网页上有一篇文章,我想要一篇文章XML节点,如果它有文章的标题我想要一个标题XML节点。基本上,我想要没有任何用户界面的网页的逻辑形式。
这个逻辑模型既可以是代码中的对象,也可以是XML无关紧要,重要的是它已经识别出页面上的所有内容。
答案 0 :(得分:3)
听起来你想要的东西需要人来对页面内容进行分类。
这可以是自动化的,但它会产生误报,并不适用于所有情况。
例如,如果一个页面使用ul
作为菜单而另一个页面使用了表格单元格会怎么样?
您是否希望将此用于特定网站或互联网上的任何网站?
答案 1 :(得分:0)
如何解析页面上已有的XML,请参阅