是否有任何语言对于网络抓取来说是“完美的”?

时间:2010-08-12 13:18:08

标签: php python ruby web-scraping

我使用了3种语言进行Web Scraping - Ruby,PHP和Python,老实说,它们似乎都不适合完成任务。

Ruby拥有出色的机械化和XML解析库,但电子表格支持非常差。

PHP具有出色的电子表格和HTML解析库,但它没有相当于WWW:Mechanize。

Python的Mechanize库非常差。我遇到了很多问题,仍无法解决问题。它的电子表格库也或多或少都不错,因为它无法创建XLSX文件。

有什么东西适合网页拼接。

PS:我正在使用Windows平台。

4 个答案:

答案 0 :(得分:2)

检查Python + Scrappy,非常好:

http://scrapy.org/

答案 1 :(得分:1)

为什么不使用XML Spreadsheet格式?它的创建非常简单,任何类型的基于类的系统都可能是微不足道的。

另外,对于Python,您是否尝试过BeautifulSoup进行解析? Urllib + BeautifulSoup是一个非常强大的组合。

答案 2 :(得分:1)

简短的回答是否定的。

问题在于HTML是一大类格式 - 只有最新的变体是一致的(并且基于XML)。如果您打算使用PHP,那么我建议使用DOM解析器,因为它可以处理许多不符合格式良好的XML的HTML。

在帖子的各行之间阅读 - 你似乎是:

1)从网络捕获内容并要求进行复杂的交互管理

2)将数据解析为一致的机器可读格式

3)将数据写入电子表格

这肯定是3个单独的问题 - 如果没有一种语言符合所有3个要求那么为什么不使用最好的工具来完成工作而只是担心数据适合的临时格式/媒介?

下进行。

答案 3 :(得分:0)

Python + Beautiful Soup用于网页抓取,因为您在Windows上,您可以使用win32com进行Excel自动化来生成xlsx文件。