应用错误收集

时间：2011-03-01 18:07:34

标签： web-crawler web-scraping classification

我需要抓一千个共享相同结构的网站：它们都有菜单，标题，一些文字和评级，就像一个博客。不幸的是，它们的编码方式也有很大不同，有些是手动的，所以我不能重新使用CSS选择器，甚至可能不依赖它们。

我想知道如何自动对它们进行分类并保存我的头发。我的第一个猜测是使用lynx或文本浏览器来获取一些文本块并根据它们的大小对它们进行分类。

你知道一种更好或更复杂的方法吗？

谢谢！

答案 0 :(得分：6)

有关分类，请查看mahout.apache.org。

答案 1 :(得分：2)

我的建议是将问题分成两个主要部分。

将分类部分写成好像所有网站都编码相同，结构完全相同。

然后编写刮削部分，以便找到每个网站的实际结构，并将该结构从分类部分映射到理想结构。