XPath提取问题(Ruby)

时间:2015-04-13 11:53:55

标签: ruby xpath

最近,我发现了如何使用ruby阅读原始HTML,并了解如何使用XPath。我试了一下,但是我得到了许多我从未见过的错误。任何知道他们正在做什么的人都请帮忙。

我目前的代码:

require 'rexml/document'
require 'open-uri'
include REXML

file = open("https://www.sinister.ly/Forum-Coding--71")
lt = XPath(file, "//tid_60649")
puts lt
sleep

1 个答案:

答案 0 :(得分:2)

现代浏览器对于他们阅读的HTML非常灵活,但像rexml这样的库不会。对于解析任意网站,Nokogiri绝对是要走的路。试试这个:

require 'nokogiri'
require 'open-uri'

url = "https://www.sinister.ly/Forum-Coding--71"
page = Nokogiri::HTML(open(url))
res = page.search("//a[@id='tid_60649']").map {|match| match.text}
p res

=> ["[Ideas?] Reading raw HTML with Ruby"]