我一直致力于抓取网页并提取网站元素。 例如: 给定一个网站 - 爬虫应返回以下部分:标题,菜单,页脚,内容等。
我在想,如果我可以使用机器学习来训练代码来学习如何对网站进行分类,那将会很棒。
我尝试查看Python机器学习库(例如:PyBrain),但示例非常复杂。 任何人都可以建议我一个库和一些关于如何开始使用Python机器学习的教程和一些简单的例子?
谢谢!
答案 0 :(得分:2)
MLPy对您来说可能是一个更简单的开始。 这是documentation on classification的链接。顺便说一句,如果你不知道这些类应该是什么样子,也许你需要cluster你的页面,而不是对它们进行分类。