我是网络抓取新手。我将构建一个搜索引擎,爬虫可以保存Rapidshare链接,包括Rapidshare链接找到的URL ......
换句话说,我打算建立一个类似于filestube.com
经过一番搜索,我发现Scrapy可以与Django一起使用。我试图找到与Django的nutch集成,但没有找到任何东西
我希望你能给我建议建立这种网站...特别是爬虫
答案 0 :(得分:7)
最着名的可插拔应用是Django-Haystack,它允许您连接到多个搜索后端:
haystack允许您使用看似Django自己的Queryset语法的API直接使用这些搜索引擎(所有搜索引擎都有自己的API和方言)。
如果你在抓取工具之后就是juste ,无论你使用什么工具:BeautifulSoup或Scrappy,你都可以自己编写python代码来解析你的内容想要解析,然后填充你的django模型 这甚至可以是单独的python脚本,可以在commands.py模块中找到。
如果您要搜索大量文件,则可能需要一个索引,该索引经常重建并允许快速搜索而无需点击django ORM。
使用Solr索引(例如)使您可以即时创建其他字段,例如基于真实模型字段的虚拟字段(例如:拆分作者名字和姓氏,添加大写文件标题字段,等等)
当然,如果您不需要快速索引,关键字提升或语义分析,您仍然可以在几个django模型字段上进行经典的全文搜索i:
答案 1 :(得分:1)
您检查了DjangoItem吗?这是一个实验性的Scrapy功能,但它已知工作