我一直关注此tutorial以了解如何使用Scrapy。我使用greenbook作为我的示例网站来测试网络抓取。其中一个功能:SgmlLinkExtractor接受一个参数,该参数是“下一页”按钮的href。问题是,对于greenbook,如果你通过firefox检查元素,“下一页”按钮的href是“#”
这些是我的问题
1)以这种方式使用“#”是什么意思:href =“#”
2)我如何解决这个问题
由于
答案 0 :(得分:2)
您可以使用#
指向页面上的ID
,而不是重定向到URL
。
当您看到诸如“点击here
以滚动到页面底部”
here
href将为#bottomOfPage
答案 1 :(得分:1)
属性href="#"
表示与href=""
相同,即对当前文档开头的引用。然而,它很少用于链接到开头的意图。相反,它使用一个占位符,使a
元素正式成为一个链接,也是一个从样式的角度来看的链接,但在一个上下文中,该元素应该有一个onclick
事件处理程序或将href
值覆盖。
比照。到Is an empty href valid?和Which "href" value should I use for JavaScript links, "#" or "javascript:void(0)"?
在您的情况下,听起来您正在使用的软件会生成下一页“链接”,这些链接不是真正的链接,而是由JavaScript驱动并仅将href="#"
作为占位符。这不适用于期望href
属性真实的其他软件。这取决于两个软件是否以及如何使它们协同工作。