我试图检索几个网页,以便我可以操纵他们的信息。我正在寻找这样做的最佳工具和包。我希望使用 Perl 来解析表格,但我也可以使用 MySQL ,但我必须学习它。 (我相信它们是HTML表格,尽管页面用Java编码?)。
我不是要求任何代码,而是针对您的意见,有关如何实现此目的的提示和建议。我现在的意图是解析表,合并它们,并构建一个表,其中包含来自不同列中两个站点的信息。这个通用表最多只需要每天更新一次。
可以找到表格in here, please scroll down和in here, the full table。
提前感谢您的帮助!
答案 0 :(得分:2)
对于网页检索,您可以使用Web :: Scraper,HTML :: DOM以及LWP相关模块。 对于SQL,DBI模块非常强大。您可以使用cpan搜索这些内容。
答案 1 :(得分:1)
您的问题似乎是如何进行网页抓取。我不知道MySQL会如何发挥作用。对于webscrapint,我建议您查看CPAN模块WWW::Mechanize和HTML::TableExtractor