如何从html文件中“提取”特定数据并处理数据

时间:2011-04-09 10:47:34

标签: html ruby html-parsing web-scraping

我是编程新手,我有一个问题,如何从网站上的页面中提取特定信息,查看数据以查看是否符合某些参数,并存储符合参数的页面的网址。

问题在于:

- 有一个包含多篇文章的网站。 - 我希望能够在网站上列出包含少于x个单词的文章网址。

我不需要编码或任何其他方面的帮助,因为我对此不熟悉,这实际上是我学习编程的自我练习。

我只是对如何解决这个问题有疑问。我知道HTML和最小的Ruby,这就是我的知识范围。

我只是不知道如何从网页“拉”数据。 :S我会用什么来拉HTML?拉完后我怎么处理HTML?将它转换为Ruby?如果是这样,怎么样?

1 个答案:

答案 0 :(得分:3)

开始于:

require 'open-uri'
require 'nokogiri' 
doc = Nokogiri::HTML(open(URL))
doc.xpath(//a).each {|node| p a.text}

Nokogiri是一个用于解析Ruby中的HTML / XML文档的库。有关如何安装/使用它的更多信息,请查看网页。