如何从同一网站的多个网页中发现公共信息块?

时间:2015-05-29 08:33:24

标签: machine-learning web-crawler

这是网络抓取工具中的模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以使爬虫成为垃圾情报,就像识别和捕获信息部分一样。

1 个答案:

答案 0 :(得分:1)

这是一个名为包装器归纳 Web数据提取的研究问题。我不知道任何图书馆,但是有很多研究论文(见下面好的恕我直言的名单)和一些研究项目,如DIADEM(他们的网站也包含出版物清单)