格式化HTML链接

时间:2012-10-18 04:46:47

标签: formatting screen-scraping href

我试图找到一个指南来解释浏览器如何格式化href标签中包含的“链接”。例如:

浏览器对以下类型的标记做了什么:

  • /律师
  • P = 1和;名称= A
  • 律师

我想要信息的原因是因为我目前以非常低效的方式格式化链接,并且想编写我自己的脚本来处理此任务。每次我自己创建一个脚本时,它会错过标记,而某些链接不可避免地不起作用 - 所以必须有一些我缺少的规则。

感谢您的帮助! 尼尔

1 个答案:

答案 0 :(得分:0)

  • / attorneys =>替换路径,只有主机不变
  • ?p = 1& Name = A =>替换查询字符串,主机和路径不变
  • attorneys =>替换文件名,主机和路径到最后一个/是 不变

大多数语言都有一个库可以为您执行此操作,这就是您应该使用的。例如,在ruby中它是URI:

new_url = URI.join(current_url, href).to_s