机器学习了解Python中的网站结构

时间:2011-10-22 18:15:23

标签: machine-learning web-crawler pybrain

我一直致力于抓取网页并提取网站元素。 例如: 给定一个网站 - 爬虫应返回以下部分:标题,菜单,页脚,内容等。

我在想,如果我可以使用机器学习来训练代码来学习如何对网站进行分类,那将会很棒。

我尝试查看Python机器学习库(例如:PyBrain),但示例非常复杂。 任何人都可以建议我一个库和一些关于如何开始使用Python机器学习的教程和一些简单的例子?

谢谢!

1 个答案:

答案 0 :(得分:2)

MLPy对您来说可能是一个更简单的开始。 这是documentation on classification的链接。顺便说一句,如果你不知道这些类应该是什么样子,也许你需要cluster你的页面,而不是对它们进行分类。