标签: machine-learning web-crawler
这是网络抓取工具中的模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以使爬虫成为垃圾情报,就像识别和捕获信息部分一样。
答案 0 :(得分:1)
这是一个名为包装器归纳或 Web数据提取的研究问题。我不知道任何图书馆,但是有很多研究论文(见下面好的恕我直言的名单)和一些研究项目,如DIADEM(他们的网站也包含出版物清单)