扫描网页并查找某些特定文本及其属性

时间:2017-12-07 16:52:20

标签: parsing

我正在寻找一个开源软件工具来从网页中读取和保存特定文本及其属性(我熟悉C,Java,Groovy等编程语言)。

我喜欢做什么: 每天,我都会收到房地产经纪人发来的一封电子邮件,其中包含一个网页链接,其中列出了所有待售房屋及其功能和属性。我想自动读取并将“关键”功能及其各自的数据值保存在文件(.csv)中。

e.g。 (如下图所示),我想阅读'Apx Sqft:'及其值500-599并保存在.csv文件中。

enter image description here

1 个答案:

答案 0 :(得分:0)

我用Ruby on Rails创建了一个房地产网站刮刀。试试看它是否符合你的需求(它是开源的)

https://github.com/RealEstateWebTools/property_web_scraper