我有一个包含<div>
标签的页面,其中onclick =“”代码调用ajax请求来获取json数据,然后遍历结果以形成链接(<a />
)以附加到页。这些链接在我的网站上的任何其他位置都不存在。如何使这些动态生成的链接可以抓取?
我最初的想法是将<div>
标记转换为<a>
标记,并使用href =“#”,但由于我对典型抓取工具的工作方式知之甚少,我认为这不会解决我的问题,因为“#”将被爬虫识别,而不一定是动态生成的输出。除了我不希望滚动定位完全改变之外,这也将排除给<a>
标签一个id并让它自己引用。
除了制作包含我需要抓取的所有链接的新网页外,我还有其他选择吗?感谢。
答案 0 :(得分:3)
作为一般规则,搜索引擎无法找到或编制通过JavaScript创建或提供的内容。 Google确实支持crawlable Ajax,但使用它作为访问内容的唯一方法对于可访问性不利。此外,其他搜索引擎无法获得那些也不是好事的内容。基本上是crawable ajax is a bad thing。
您应始终在不需要JavaScript的情况下提供内容。然后,您可以通过添加JavaScript来改进您的网站,以便更快或更轻松地获取内容。这称为Progressive Enhancement,是网站建设的好方法。