比正则表达更好的系统

时间:2012-05-20 17:01:48

标签: java web-crawler

我已经制作了一个可以从特定网站中提取某些特定信息的应用程序。为此,我使用了正则表达式,为我提供了所需的输出。对于那个简单的爬虫,是否有比正则表达式更好的有效流程或想法。

1 个答案:

答案 0 :(得分:2)

如果你说它是一个简单的正则表达式来解决你的问题而不是没有,那就没有其他更有效的解决方案了。 在爬行方面,另一种方法是将整个html页面加载到内存中,在DOM文档中加载,并使用XPath甚至XQuery进行搜索。但实际上,如果可以使用正则表达式轻松提取信息,那么请不要打扰,特别是如果您不熟悉XPath。

当你想进行复杂的搜索时,XPath的强大之处就在于此。对于这项任务,它比正则表达式更优雅(至少在w3c的观点中)。但是如果你想要一个快速的解决方案,你已经找到它了,而且它在RAM方面也更有效率。