应用错误收集

时间：2017-01-11 13:14:20

标签： web-scraping nlp html-parsing semantic-web

假设我的磁盘上有一个（相当大的）网站数量，从中删除或取出共同爬行。我没有关于HTML结构的先验知识，假设每个页面的结构不同（通常是这种情况）。从他们每个人我想提取一些类型的语义信息（事先已知），如文章/帖子与元数据（日期，作者，标签，评论等）。

一个简单的方法是为每个网站编写一个简单的解析器，给出高质量的解析库，它应该很容易。但这种方法显然无法扩展。这个问题有更聪明的解决方案吗？我将如何进行以及这项任务的实际难度是什么？

如果存在此类内容，您可以添加付费服务。如果你知道获得这种数据的更好方法（关于特定主题;而不是手动抓取/常见抓取），请同时包括它。

答案 0 :(得分：0)

尝试这个吗？

此工具由XSLT样式表调整，试图从HTML语义丰富的文档中提取一些信息。它仅使用通过充分利用HTML4或XHTML 1中定义的语义而获得的信息。此工具不会考虑HTML5所添加的新语义，特别是不会识别微数据，微格式或RDFa。