我需要一个抓取工具来获取网页并从中提取某些数据。 我已经在php中完成了这件事,但是它很漂亮,我在问是否有开源平台或任何能够做到这一点的东西。
解释?
获取的网页内容
iPhone 5S is a great phone with 1.2 Ghz dual core processor .
抓取工具应该返回
iPhone > product name (given in a database )
1.2 Ghz > processor (the code should be able to identify the ghz or MHz to understand that this is a processor value )
Dual core > processor cores
这是它应该做的一个简单的例子,它应该能够识别上下文中的内容并忽略不需要的字符串和数字。
有什么类似的吗?