将网站抓取并提取为特定格式

时间:2016-06-20 05:19:44

标签: web-crawler

我需要一个抓取工具来获取网页并从中提取某些数据。 我已经在php中完成了这件事,但是它很漂亮,我在问是否有开源平台或任何能够做到这一点的东西。

解释?

获取的网页内容

iPhone 5S is a great phone with 1.2 Ghz dual core processor .

抓取工具应该返回

iPhone > product name (given in a database )

1.2 Ghz > processor (the code should be able to identify the ghz or MHz to understand that this is a processor value )

Dual core > processor cores 

这是它应该做的一个简单的例子,它应该能够识别上下文中的内容并忽略不需要的字符串和数字。

有什么类似的吗?

0 个答案:

没有答案