如何使用Ruby和Mechanize获取验证码img src?

时间:2017-03-19 09:04:22

标签: ruby web-scraping mechanize

我正在尝试编写简单的爬虫,这将填充2个输入字段。该页面包含img元素。通过Chrome开发者模式,我可以看到img具有src属性。但是在获取页面后,src属性消失了。我该如何克服这个? 代码:

require 'mechanize'

agent = Mechanize.new

agent.user_agent_alias = 'Windows Chrome'

page = agent.get('https://ercdmd.ru/?gpay')

form = page.forms.first

form.gpay_abon = '00-0000000000'

captcha = page.at('#img_captcha')

pp captcha

输出:

#(Element:0x15e90ec {
  name = "img",
  attributes = [ #(Attr:0x15e8c14 { name = "id", value = "img_captcha" })]
  })

我的想法是通过Telegram bot通过查询获取发票。由于存在验证码,我认为我可以使用Mechanize读取验证码图像src以通过电报发送该图像。然后,我会输入我可以在图像上看到的数字并发回到Mechanize以填充第二个输入字段。但现在我被卡住了。 还有其他方法可以从该来源获取发票吗?

1 个答案:

答案 0 :(得分:0)

我正在查看该页面,验证码网址为:

{{1}}

尝试一下,看看它是否有效。