应用错误收集

机器学习了解Python中的网站结构

时间：2011-10-22 18:15:23

标签： machine-learning web-crawler pybrain

我一直致力于抓取网页并提取网站元素。例如：给定一个网站 - 爬虫应返回以下部分：标题，菜单，页脚，内容等。

我在想，如果我可以使用机器学习来训练代码来学习如何对网站进行分类，那将会很棒。

我尝试查看Python机器学习库（例如：PyBrain），但示例非常复杂。任何人都可以建议我一个库和一些关于如何开始使用Python机器学习的教程和一些简单的例子？

谢谢！

1 个答案:

答案 0 :(得分：2)

MLPy对您来说可能是一个更简单的开始。这是documentation on classification的链接。顺便说一句，如果你不知道这些类应该是什么样子，也许你需要cluster你的页面，而不是对它们进行分类。