Question

我有以下代码：

require 'rubygems'
require 'nokogiri'
require 'open-uri'

time = Time.new

url = "http://mobile.bahn.de/bin/mobil/bhftafel.exe/dox?input=Richard-Strauss-Stra%DFe%2C+M%FCnchen%23625127&date=" + 
  time.strftime("%d%m%Y") +
  "&time=" +
  time.strftime("%H") +
  "%3A" +
  time.strftime("%M") +
  "&productsFilter=1111111111000000&REQTrain_name=&maxJourneys=10&start=Suchen&boardType=Abfahrt&ao=yes"

doc = Nokogiri::HTML(open(url))
doc.xpath('//div//p').remove
doc.encoding = 'UTF-8'
doc = doc.xpath('//div').each do |node|
  text = node.text.gsub(/\n([ \t]*\n)+/,"\n",).gsub(/^\s+|\s+$/,'').gsub("Startseite", '').gsub("Impressum", '')
  puts text unless text.empty?
end

我有两个问题：

代码输出三次而不是一次。
德语“变音符号”，如äü。

Answer 1

原始HTML很长而且没有缩进，因此很难调试。

但我认为你需要更换：

doc = doc.xpath('//div').each do |node|

使用：

doc = doc.xpath('//body/div').each do |node|

第一个元素还包括所有<div>元素，因此它包含//body/div，然后单独包含<div>内的//body/div

我使用puts对变音字符没有任何问题，但在将它们写入文件时确实存在问题。你的确切问题是什么？如果你在解决方案溢出问题的Stack Overflow上创建一个新问题，那可能是最好的。

输出几次

1 个答案: