如何使用Nokogiri和Mechanize刮<script>标签

时间:2019-12-05 14:34:48

标签: ruby web-scraping nokogiri mechanize

我正在尝试从“ St. Paul The Apostle Details Page”中抓取信息。我需要地址,电话号码和说明。所有这些信息都可以通过可以使用Nokogiri进行剪贴的普通HTML标记访问,但是我在<script>标记中找到了一块信息。

<script type="application/ld+json">
          {
          "@context": "http://schema.org",
          "@type": "LocalBusiness",
          "address": {
          "@type":"PostalAddress",
          "streetAddress":"98-16 55th Avenue",
          "addressLocality":"Corona",
          "addressRegion":"NY",
          "postalCode": "11368"             
          },
          "name": "St. Paul The Apostle",
          "telephone":"(718) 271-1100",
          "image": "https://www.foodpantries.org/gallery/3101_st._paul_the_apostle_11368_idu.png",
          "description": "<b>Food Pantry Hours: </b><br>2nd and 4th week of the month <br>8:00am and open until food runs out <br>(usually people line up about 1 hour prior to 8 AM)<br><br><b>For more information, please call. </b><br>"
          }
        </script>

我希望使用这段代码来抓取我需要的所有信息:

def self.scrape_info
  agent = Mechanize.new
  page = agent.get('https://www.foodpantries.org/li/st._paul_the_apostle_11368')
  street_address = agent.page.search('script').text
  puts street_address.to_s
end

我该怎么做?

2 个答案:

答案 0 :(得分:0)

您要使用JSON进行解析:

require 'json'
jsons = page.search('script[type="application/ld+json"]').map{|s| JSON.parse(s.content)}

答案 1 :(得分:0)

如果您仅使用机械化来检索页面,则机械化是过大的。有许多HTTP客户端gem可以轻松做到这一点,或者使用OpenURI(它是Ruby标准库的一部分)。

这是检索信息的基础。您需要确定所需的特定脚本,但Nokogiri的tutorials将为您提供基础知识:

require 'json'
require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('https://www.foodpantries.org/li/st._paul_the_apostle_11368'))

此时,Nokogiri已在内存中创建了一个页面的DOM。

找到所需的<script>节点,然后提取该节点的文本:

js = doc.at('script[type="application/ld+json"]').text

atsearch是解析页面的主要手段。有特定于CSS和XPath的变体,但是通常您可以使用通用版本,并且Nokogiri会找出要使用的版本。所有文档与atsearch以及教程都记录在同一页面上。

JSON很聪明,可以让我们使用JSON[...]的简写形式来解析或生成JSON字符串。在这种情况下,它将字符串解析回Ruby对象,在这种情况下,该对象是哈希:

JSON[js]
# => {"@context"=>"https://schema.org",
#     "@type"=>"Organization",
#     "url"=>"https://www.foodpantries.org/",
#     "sameAs"=>[],
#     "contactPoint"=>
#      [{"@type"=>"ContactPoint",
#        "contactType"=>"customer service",
#        "url"=>"https://www.foodpantries.org/ar/about",
#        "email"=>"webmaster@foodpantries.org"}]}

访问特定的键/值对很简单,就像其他哈希一样:

foo = JSON[js]
foo['url'] # => "https://www.foodpantries.org/"

您所指向的页面具有与我使用的选择器匹配的多个脚本,因此您将要使用更精确的选择器进行过滤,或者遍历匹配项并选择所需的匹配器。使用CSS,XPath和Nokogiri的文档在SO上对此进行了很好的记录。