我有以下HTML:
<h3><strong>Adresse:</strong></h3>
<p>
Hochschule Darmstadt<br>
TechnologieTransferCentrum<br>
D19, Raum 221, 222<br>
Schöfferstraße 10<br>
<b>64295 Darmstadt</b><p>
<h3>Kommunikationsdaten: </h3>
<p>
但<p>
和<br>
标记未关闭。
如何提取地址信息:
Hochschule Darmstadt
TechnologieTransferCentrum
D19, Raum 221, 222
Schöfferstraße 10
64295 Darmstadt
答案 0 :(得分:0)
从这个基础开始:
# encoding: UTF-8
require 'nokogiri'
doc = Nokogiri::HTML(<<EOT)
<h3><strong>Adresse:</strong></h3>
<p>
Hochschule Darmstadt<br>
TechnologieTransferCentrum<br>
D19, Raum 221, 222<br>
Schöfferstraße 10<br>
<b>64295 Darmstadt</b><p>
<h3>Kommunikationsdaten: </h3>
<p>
EOT
puts doc.errors
puts doc.to_html
我在运行代码时得到了这个:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body>
<h3><strong>Adresse:</strong></h3>
<p>
Hochschule Darmstadt<br>
TechnologieTransferCentrum<br>
D19, Raum 221, 222<br>
Schöfferstraße 10<br><b>64295 Darmstadt</b></p>
<p>
</p>
<h3>Kommunikationsdaten: </h3>
<p></p>
</body></html>
请注意,Nokogiri已添加<html>
和<body>
标记。此外,它已关闭<p>
代码,添加了</p>
。我们可以告诉它将HTML解析为片段,而不是使用而不是添加标题:
Nokogiri::HTML::DocumentFragment.parse
生成:
<h3><strong>Adresse:</strong></h3>
<p>
Hochschule Darmstadt<br>
TechnologieTransferCentrum<br>
D19, Raum 221, 222<br>
Schöfferstraße 10<br><b>64295 Darmstadt</b></p><p>
</p><h3>Kommunikationsdaten: </h3>
<p></p>
仍然有关于HTML发生的修复,但它是传入的基本HTML。无论哪种方式,生成的HTML在技术上都是正确的。
在查找相关文字时:如果只有一个<p>
标记,或者它是第一个:
doc.at('p').text
=> "\nHochschule Darmstadt\nTechnologieTransferCentrum\nD19, Raum 221, 222\nSchöfferstraße 1064295 Darmstadt"
或者:
doc.at('h3').next_sibling.next_sibling.text
=> "\nHochschule Darmstadt\nTechnologieTransferCentrum\nD19, Raum 221, 222\nSchöfferstraße 1064295 Darmstadt"
需要两种next_sibling
方法。第一个在<h3>
节点结束后立即找到文本节点:
doc.at('h3').next_sibling
=> #<Nokogiri::XML::Text:0x3fef59dedfb8 "\n ">
答案 1 :(得分:0)
假设您已在doc
中解析了该文档,请执行以下操作:
puts doc.at('//h3[contains(strong, "Adresse:")]/following-sibling::p').text
将为您提供以下输出:
Hochschule Darmstadt
TechnologieTransferCentrum
D19, Raum 221, 222
Schöfferstraße 10
64295 Darmstadt