上周我开始在ruby中编写一个脚本。我需要从网上搜集一些数据,所以我建议使用mechanize然后nokogiri。
Mechanize documentation says Mechanize使用nokogiri来解析html。这对你意味着什么?您可以将机械化页面视为nokogiri对象。使用Mechanize导航到需要刮擦的页面后,使用nokogiri方法刮取它。
我知道我可以使用.xpath .at_xpath,因为它是one answer to my question的一部分,但我不知道这些方法的确切语法,差异等等。我试图搜索nokogiri web。
我被告知in this answer 我经常使用text()表达式。使用Nokogiri不需要这样做。您可以检索节点,然后在节点上调用text方法。它的成本要低得多。我试图搜索nokogiri web,但没有发现任何内容。
是否有人可以帮助我阅读nokogiri文档?
假设我想知道如何使用text方法而不是text()。
答案 0 :(得分:2)
在阅读Nokogiri文档时,我不确定问题是什么。在Google上快速搜索“nokogiri”将首次发布“nokogiri.org”。那是文档页面。
在Ruby中,如果您没有传递参数,.text()
与.text
相同。 .text()
是.inner_text()
的别名,它将“获取所有包含的Node对象的内部文本”。 Searching nokogiri.org for "text"会让你开始。
答案 1 :(得分:1)
我认为作者的意思之一是网站上的文档不是标准格式/显示,因为其他网站使用rdoc和各种方法来显示信息。例如。 很难阅读。
要回答,或尝试 - 我很幸运地在github上搜索使用nokogiri的项目,并通过阅读来源从那里开始。