假设我的磁盘上有一个(相当大的)网站数量,从中删除或取出共同爬行。我没有关于HTML结构的先验知识,假设每个页面的结构不同(通常是这种情况)。从他们每个人我想提取一些类型的语义信息(事先已知),如文章/帖子与元数据(日期,作者,标签,评论等)。
一个简单的方法是为每个网站编写一个简单的解析器,给出高质量的解析库,它应该很容易。但这种方法显然无法扩展。这个问题有更聪明的解决方案吗?我将如何进行以及这项任务的实际难度是什么?
如果存在此类内容,您可以添加付费服务。如果你知道获得这种数据的更好方法(关于特定主题;而不是手动抓取/常见抓取),请同时包括它。
答案 0 :(得分:0)
尝试这个吗?
https://www.w3.org/2002/08/extract-semantic
此工具由XSLT样式表调整,试图从HTML语义丰富的文档中提取一些信息。它仅使用通过充分利用HTML4或XHTML 1中定义的语义而获得的信息。此工具不会考虑HTML5所添加的新语义,特别是不会识别微数据,微格式或RDFa。