我有一个非常好的网站但信息量很少。 所以我觉得要添加关于特定部门的新闻(例如政治,好莱坞等)。我相信爬虫是最好的方法吗?我的理解是否正确,如果您在不使用各种来源的抓取工具的情况下感觉有任何其他方式,请建议。
其次我正在进行最近2天的研究,我找不到能够这样做的特定来源。现在我希望抓取工具在mysql数据库中查找信息,规范化并存储。听起来很简单哈。但它不适合我。
因为这非常耗费资源和时间。在选择爬虫之前,我应该考虑所有事情。此外,我希望自定义它,所以任何开源和良好定制的工具都会很棒。
任何提供有关在创建抓取工具或教育抓取工具时需要考虑的因素的信息和研究的来源都会很棒。 我更喜欢在java中编码,但我可以使用任何其他语言进行编码,以防您觉得自己有某种语言。 我希望我已经提供了足够的信息。如果您需要更多信息来提供建议,请不要犹豫。
答案 0 :(得分:0)
您可以使用httrack复制目标网站。有一个firefox插件,名为spiderzilla。但是,他们只会保存页面。
如果要解析页面中的数据,则可以使用simple_html_dom并将信息存储在mySQL中。
答案 1 :(得分:0)
试用GNU Wget工具。您可以为其爬网方式添加大量智能,并创建网页的数据转储。它也是开源的,可定制的,也非常快。