一个很好的开源网络爬虫,用于索引特定内容的特定网站?

时间:2011-01-10 07:47:27

标签: java php c++ web-crawler

请为我推荐一个用C ++,JAVA或PHP编写的优秀的开源网络爬虫。

我只需要针对特定​​内容(图片,文字,视频)抓取/索引某些特定网站。

我知道他们已经有很多问题了关于这个主题的答案在这个网站上

但阅读完所有内容后我有点困惑。

如果我再次重复同样的问题,我很抱歉。

- 提前谢谢

1 个答案:

答案 0 :(得分:0)

这取决于网站的类型。如果在能够查看/下载您想要的内容之前需要您登录(或类似操作),我建议您使用cURL(最好在PHP中)。否则,您可以在PHP中使用简单的wget,sh或file_get_contents

您应该使用某种HTML解析器和/或正则表达式来查找特定内容,具体取决于您正在抓取的网站。