请为我推荐一个用C ++,JAVA或PHP编写的优秀的开源网络爬虫。
我只需要针对特定内容(图片,文字,视频)抓取/索引某些特定网站。
我知道他们已经有很多问题了关于这个主题的答案在这个网站上
但阅读完所有内容后我有点困惑。
如果我再次重复同样的问题,我很抱歉。
- 提前谢谢
答案 0 :(得分:0)
这取决于网站的类型。如果在能够查看/下载您想要的内容之前需要您登录(或类似操作),我建议您使用cURL
(最好在PHP中)。否则,您可以在PHP中使用简单的wget
,sh或file_get_contents
。
您应该使用某种HTML解析器和/或正则表达式来查找特定内容,具体取决于您正在抓取的网站。