标签: rss web-crawler
我正在研究构建一个rss搜寻器,以发现网络上的RSS供稿。
我已经完成了对一般网络爬网的研究,发现了许多很棒的解决方案,工具包和框架(例如,抓地,漂亮的汤),可以对网站进行爬网和处理。
这是我不确定的发现部分。我用什么来爬虫?
我只对网络的一小部分感兴趣,并且不想/不能现实地爬行整个网络以仅找到RSS feed。