我正在尝试编写简单的爬虫,这将填充2个输入字段。该页面包含img
元素。通过Chrome开发者模式,我可以看到img
具有src
属性。但是在获取页面后,src
属性消失了。我该如何克服这个?
代码:
require 'mechanize'
agent = Mechanize.new
agent.user_agent_alias = 'Windows Chrome'
page = agent.get('https://ercdmd.ru/?gpay')
form = page.forms.first
form.gpay_abon = '00-0000000000'
captcha = page.at('#img_captcha')
pp captcha
输出:
#(Element:0x15e90ec {
name = "img",
attributes = [ #(Attr:0x15e8c14 { name = "id", value = "img_captcha" })]
})
我的想法是通过Telegram bot通过查询获取发票。由于存在验证码,我认为我可以使用Mechanize读取验证码图像src
以通过电报发送该图像。然后,我会输入我可以在图像上看到的数字并发回到Mechanize以填充第二个输入字段。但现在我被卡住了。
还有其他方法可以从该来源获取发票吗?
答案 0 :(得分:0)
我正在查看该页面,验证码网址为:
{{1}}
尝试一下,看看它是否有效。