问题:
解析网站时,有一些字符会使Mechanize无法正确解析它。
建议的解决方案
问题
如何在解析之前访问网站响应?
或者,我怎样才能解析它然后让Mechanize重新加载它?
谢谢!
答案 0 :(得分:1)
class MyParser
def self.parse(thing, url = nil, encoding = nil, options = Nokogiri::XML::ParseOptions::DEFAULT_HTML, &block)
thing = thing.gsub(/\x00/,"")
Nokogiri::HTML::Document.parse(thing, url, encoding, options, &block)
end
end
agent.html_parser = MyParser
search_page = agent.get "https://www.example.com"
答案 1 :(得分:0)
如果您想自己处理解析,请不要使用mechanize来获取html数据。使用其他一些gem来获取html,然后手动解析它。如果你不打算使用它的解析,那么使用mechanize有什么意义呢? :|