Ghost.py webscraping列出页面中的所有元素

时间:2017-07-09 14:24:21

标签: javascript python web-scraping ghost.py

我正在尝试使用Ghost.py在网页上填写表单。目前我正在努力寻找正确的表格领域,css选择器让我头疼。所以我决定让Ghost.py完成工作并给我一个包含表单字段和标识符的列表。到目前为止,我已经尝试过:

import ghost

g = ghost.Ghost()
with g.start(display=True) as session:
    page, extra_resources = session.open("http://www.surfbirds.com/identifier/what-british-bird.htm")
    if page.http_status == 200 and \
        'Head characters' in page.content:
        print("got it!")
        ressources = 
        session.evaluate('document.getElementByName("geog");')
        print("ressources: {}".format(ressources))

这会引发错误:

Ghost<f836191b-16e6-4a0d-b2c5-96d657556b46>: undefined(0): TypeError: 
'undefined' is not a function
ressources: (None, [])

我不知道是什么导致这种情况,有人可以指出我应该看的方向吗?

1 个答案:

答案 0 :(得分:0)

该页面上没有名为<geog>的标记。您可能希望查询名为geog的表单元素:

document.querySelector('form[name=geog]')