我不确定使用哪一个比另一个更好,即。 Java,PHP或Perl。
答案 0 :(得分:4)
最好的是你最熟悉的那个。
答案 1 :(得分:1)
只要您使用正确的工具来完成工作,这并不重要。
您需要考虑部署应用程序的位置(Web与桌面),学习新技术/语言所花费的时间,以及用于解析RSS和/或XML和/或HTML的库的可用性。不过,你所命名的三种语言都是不错的选择。
答案 2 :(得分:0)
RSS文件只是您通过互联网获取的格式化XML。您在语言中所需要的只是它可以发出HTTP请求并且有解析XML的方法。
答案 3 :(得分:0)
框架代码可以是任何东西,但考虑使用XSL转换(或XPath查询)将XML变为更可口的格式。爱斯佩克。如果您正在寻找数据的小子集或单个值。
如果源数据首先要进行机器解析,那么它几乎不会“刮擦”。 :)
答案 4 :(得分:0)
如果您对某项特定技术更强大并且您有一条死线(或其他因素),那么请使用该技术,因为它们都具备相应的功能。
如果情况并非如此,则符合您正在进行的项目的要求,以及您是否希望/能够学习新技术。
PHP是最自然的基于Web的技术,你可以使用这样的库Simple HTML DOM Parser(它也支持XML)来获得快速的结果,并深入研究PHP将支持的Web抓取的复杂性同样。
Java有一个名为Web Harvest的好项目,我过去使用过它,结果很好(虽然你学习了非标准的xml语法,但它类似于xslt),一旦你的系统设置了你的网页抓取可以很容易地修改。
Perl是最强大的正则表达式(Java,特别是PHP在使用我发现的正则表达式时可能会变得有点混乱)而正则表达式是一个很好的技能,取决于你想要对你的信息做什么这是一个令人讨厌的选择。
答案 5 :(得分:0)
如果您正在编写需要经常运行并在大量站点上聚合内容的服务器应用程序,那么性能应该是您的重要标准。这意味着能够快速处理大量数据的语言。
如果您只需要偶尔运行一个程序并从许多页面中挑选出一些数据,那么您可以考虑使用专门的语言。产品TestPlan提供了一种非常简单的语言,可以让您快速获取RSS内容并以简单的方式公开它。
我在一些重要的抓取项目中使用过它。虽然不是非常快速,但脚本非常容易维护。