machine-learning - 如何从同一网站的多个网页中发现公共信息块？

这是一个名为包装器归纳或 Web数据提取的研究问题。我不知道任何图书馆，但是有很多研究论文（见下面好的恕我直言的名单）和一些研究项目，如DIADEM（他们的网站也包含出版物清单）

Muslea，Ion，Steven Minton和Craig A. Knoblock。 “Hierarchical Wrapper Induction for Semistructured Information Sources。”自治代理和多代理系统4，没有。 1-2（2001）：93-114。
Dalvi，Nilesh，Ravi Kumar和Mohamed Soliman。 “Automatic Wrappers for Large Scale Web Extraction.”VLDB捐赠基金会的会议记录4，没有。 4（2011）：219-230。
Dalvi，Nilesh，Ashwin Machanavajjhala和Bo Pang。 “分析网上的结构化数据。“VLDB捐赠基金5的会议记录，编号。 7（2012）：680-691。
Gentile，Anna Lisa，Zizi Zhang，Isabelle Augenstein和Fabio Ciravegna。 “Unsupervised Wrapper Induction Using Linked Data。”在第七届国际知识会议记录 Capture，41-48,2013。
Weninger，Tim和Jiawei Han。 “探索结构和内容 Web：半结构化Web的提取和集成。“In 第六届ACM国际网络搜索会议论文集和数据挖掘，779-780,2013。 http://dl.acm.org/citation.cfm?id=2433499。