genreal中的抓取工具会考虑http://server/page和http://server/page?parameter=1两个不同的网址。
Google和Bing抓取工具如何考虑散列标记网址,例如http://server/page#hash?
根据http://www.tynt.com/support/faq#technical,忽略散列标记之后的所有内容。有没有其他消息来源确认这一点?
答案 0 :(得分:9)
您的来源是正确的。通常会忽略散列标记(也称为URL片段)之后的所有内容。原因是,URL片段通常仅由浏览器使用,并且不会导致从服务器提取其他信息。所以页面的内容应该基本保持不变。
例如,hash参数通常以两种方式使用,可以作为页面锚点(想想“转到页面顶部”),也可以作为通过javascript传递信息的方式。
规则的例外是AJAX可抓取性实现。在这种情况下,如果您有“hash-bang”(#!),Google和Bing(可能)会尝试抓取您的AJAX内容,这会将您的哈希参数值视为单独的页面。
Google => "Making AJAX Applications Crawlable"
Search Engine Land => Bing Now Supports Google’s Crawlable AJAX Standard?
答案 1 :(得分:1)
这严格依赖于具体的爬虫实现,没有强制执行任何行为的一般规则。
答案 2 :(得分:0)