蜘蛛和索引器的良好语言

时间:2009-08-22 10:24:40

标签: parsing indexing feeds

我喜欢Ruby及其框架,但我不认为Ruby On Rails是开发Feed解析器和索引器的最佳选择。

也许Python或Java是更好的选择。你建议用什么语言?

3 个答案:

答案 0 :(得分:1)

Feed(RSS?)通常结构合理(至少与常规网页相比)。查看Web Harvest,一个基于Java / bean shell的DOM解析器(以及其他内容)。您可以使用它来自动从互联网上抓取数据。您需要学习一种特定于域的语言(在XML中定义)。它的学习曲线可能有点陡峭,但我觉得这值得付出努力。

答案 1 :(得分:1)

我认为Ruby适用于任何这类任务:

如果你对Ruby感到满意,我认为没有理由去Java,Python等。对于大多数任务。请记住,许多Ruby库都位于本机实现上。

答案 2 :(得分:0)

我对Java不太熟悉,但我可以说Python非常适合这项工作。

有一个非常快速的XML解析器模块,名为BeautifulStoneSoup,您可以使用它。它是BeautifulSoup库的一部分。如果你只是在寻找一个简单的索引器,Python内置了一个sqlite引擎,它也很轻巧,速度非常快。