我正在考虑启动一个涉及屏幕抓取各种网站的小项目,我希望将其存储在服务器上的SQL数据库中。
几年前,我使用C#和名为“screen-scraper”的软件完成了这个项目,该软件为我完成了大部分艰苦的工作,但我认为这个解决方案尽管工作正常但并不尽如人意。最终所以我想这次做得更好。由于我现在不记得的原因,我永远不能在服务器上运行屏幕刮板,并且总是不得不离开我自己的另一台计算机进行自己的抓取,然后数据将从那里上传到服务器..(也许我只是个白痴。)虽然我没有以前的Python经验,但我已经听说过Python和Beautiful Soup这个任务很好。
我希望最终能够在服务器端运行所有内容,因此python脚本在某些服务器上以一定频率更新SQL数据库时全天候运行。其他代码也将存在于服务器上,并由用户调用来操纵数据库等数据。
我有更多使用基于C语言的经验,但我不介意学习一些Python,如果值得的话。我只是想确保我朝着正确的方向前进..
答案 0 :(得分:0)
Python很好,可能是最受欢迎的抓取选择。我会劝阻美丽的汤,因为它使用它自己的语法,而lxml使用xpath,如果你学习它也会在你的c项目中有用。