我必须抓取几个博客的内容。问题是我需要对作者来自特定学校的博客进行分类,并且正在讨论学校的内容。我可以知道爬行的最佳方法是什么,或者我应该如何进行分类?
答案 0 :(得分:1)
如果您正在寻找一个优秀的Python网络抓取工具,this question似乎拥有您正在寻找的所有信息。
至于分类博客是否正在讨论学校的东西,这是一个更棘手的问题。我怀疑你不会让人类审查结果。一个非常复杂的刮刀将使用概率过滤器 - 在博客文章上进行训练,这些博客上和不讨论学校,并让它推断出规则本身。然而,这是相当复杂的,从我猜测你想要快速和肮脏的问题。我只是将一个关键字列表放在一起,然后检查(并优化)结果,直到它足够接近你想要的结果。
至于识别作者,这是互联网,没有人知道你是不是一只狗(或者,你所参加的学校)。如果您有一个要查找的作者列表,您可以始终将它们用作关键字搜索的一部分,但如果作者选择不识别自己(或者更糟糕的是,将自己标识为其他人),则没有实际可行的方法。
答案 1 :(得分:1)
网络报废是一个问题。处理分类是一个完整的领域。
你真的有两个选择:雇用一个知道如何去做或想出来的人。为了弄清楚,我强烈推荐Programming Collective Intelligence本书。这些示例在Python中,使用真实的API,并邀请黑客来寻找解决方案。每章都处理集体智慧世界的一部分,例如,分组或分类,浏览一些基础知识,并提供大量参考资料以获取更多信息。即使您决定聘请专家,也可以浏览一下这本书。