如果我说20个HTML页面并且我想要提取文档的共享/类似部分,那么有哪些有效的方法可以做到这一点?
所以对于StackOverflow来说,比较10个页面,我发现每个页面的顶栏和主菜单栏是相同的,所以我可以将它们解压缩出来。
似乎我需要一个diff程序或一些复杂的regexp,但假设我事先不知道page / text / html结构。
这可能吗?
答案 0 :(得分:1)
你应该考虑一个clone detector such as CloneDR。好的,无论格式如何,都可以同时比较数千个文件的结构,并会告诉您文件的共同元素以及这些常见元素的变化情况。
CloneDR已应用于许多编程语言。它的基础,DMS Software Reengeering Toolkit,已经处理(脏)HTML,因此构建HMTL CloneDR非常容易。
答案 1 :(得分:0)