在相对部分中使用多个斜杠解析URI

时间:2018-10-04 14:42:32

标签: html perl rfc3986

我必须在perl中编写一个脚本来解析html中的uris。无论如何,真正的问题是如何解决相对的尿失禁。

我有基本URI(例如HTML中的基本href)http://a/b/c/d;p?q(让我们通过rfc3986)和其他不同的URI:

/ g,// g,/// g,//// g,h // g,g //// h,h /// g:f

在此RFC中,第5.4.1节(上面的链接)仅提供// g:

的示例

“ // g” =“ http://g

其他所有情况又如何?据我从rfc 3986, section 3.3所了解,允许使用多个斜杠。所以,下面的决议 对吗?

“ //// g” =“ http://a/b/c///g

或者应该是什么?有没有人可以更好地解释它,并在不作废RFC或文档的情况下证明它?

更新#1 : 尝试查看此工作网址-https:///stackoverflow.com////////a/////10161264/////6618577

这是怎么回事?

3 个答案:

答案 0 :(得分:4)

我将首先确认您提供的所有URI均有效,并提供您提到的URI解析的结果(以及我自己的一些结果):

$ perl -MURI -e'
   for my $rel (qw( /g //g ///g ////g h//g g////h h///g:f )) {
      my $uri = URI->new($rel)->abs("http://a/b/c/d;p?q");
      printf "%-20s + %-7s = %-20s   host: %-4s   path: %s\n",
         "http://a/b/c/d;p?q", $rel, $uri, $uri->host, $uri->path;
   }

   for my $base (qw( http://host/a/b/c/d http://host/a/b/c//d )) {
      my $uri = URI->new("../../e")->abs($base);
      printf "%-20s + %-7s = %-20s   host: %-4s   path: %s\n",
         $base, "../../e", $uri, $uri->host, $uri->path;
   }
'
http://a/b/c/d;p?q   + /g      = http://a/g             host: a      path: /g
http://a/b/c/d;p?q   + //g     = http://g               host: g      path:
http://a/b/c/d;p?q   + ///g    = http:///g              host:        path: /g
http://a/b/c/d;p?q   + ////g   = http:////g             host:        path: //g
http://a/b/c/d;p?q   + h//g    = http://a/b/c/h//g      host: a      path: /b/c/h//g
http://a/b/c/d;p?q   + g////h  = http://a/b/c/g////h    host: a      path: /b/c/g////h
http://a/b/c/d;p?q   + h///g:f = http://a/b/c/h///g:f   host: a      path: /b/c/h///g:f
http://host/a/b/c/d  + ../../e = http://host/a/e        host: host   path: /a/e
http://host/a/b/c//d + ../../e = http://host/a/b/e      host: host   path: /a/b/e

接下来,我们将介绍相对URI的语法,因为这就是您的问题所在。

relative-ref  = relative-part [ "?" query ] [ "#" fragment ]

relative-part = "//" authority path-abempty
              / path-absolute
              / path-noscheme
              / path-empty

path-abempty  = *( "/" segment )
path-absolute = "/" [ segment-nz *( "/" segment ) ]
path-noscheme = segment-nz-nc *( "/" segment )
path-rootless = segment-nz *( "/" segment )

segment       = *pchar         ; 0 or more <pchar>
segment-nz    = 1*pchar        ; 1 or more <pchar>   nz = non-zero

这些规则中回答您问题的关键:

  • 绝对路径(path-absolute)不能以//开头。如果提供,则第一段的长度必须不为零。如果相对URI以//开头,则后面必须是authority
  • //可能会出现在路径中,因为段的长度可以为零。

现在,让我们依次看一下您提供的每个分辨率。

/g是绝对路径path-absolute,因此是有效的相对URI(relative-ref),因此也是有效的URI(URI-reference)。

  • 解析URI(例如,使用附录B中的正则表达式)将为我们提供以下信息:

    Base.scheme:    "http"       R.scheme:    undef
    Base.authority: "a"          R.authority: undef
    Base.path:      "/b/c/d;p"   R.path:      "/g"
    Base.query:     "q"          R.query:     undef
    Base.fragment:  undef        R.fragment:  undef
    
  • 按照第5.2.2节中的算法,我们得到:

    T.path:         "/g"      ; remove_dot_segments(R.path)
    T.query:        undef     ; R.query
    T.authority:    "a"       ; Base.authority
    T.scheme:       "http"    ; Base.scheme
    T.fragment:     undef     ; R.fragment
    
  • 按照第5.3节中的算法,我们得到:

    http://a/g
    

//g是不同的。 //g 不是绝对路径(path_absolute),因为绝对路径不能以空段("/" [ segment-nz *( "/" segment ) ])开头。

它遵循以下模式:

"//" authority path-abempty
  • 解析URI(例如,使用附录B中的正则表达式)将为我们提供以下信息:

    Base.scheme:    "http"       R.scheme:    undef
    Base.authority: "a"          R.authority: "g"
    Base.path:      "/b/c/d;p"   R.path:      ""
    Base.query:     "q"          R.query:     undef
    Base.fragment:  undef        R.fragment:  undef
    
  • 按照第5.2.2节中的算法,我们得到以下信息:

    T.authority:    "g"           ; R.authority
    T.path:         ""            ; remove_dot_segments(R.path)
    T.query:        ""            ; R.query
    T.scheme:       "http"        ; Base.scheme
    T.fragment:     undef         ; R.fragment
    
  • 按照§5.3中的算法,我们得到以下信息:

    http://g
    

注意:此联系人服务器g


///g//g相似,只是权限为空!这出奇地有效。

  • 解析URI(例如,使用附录B中的正则表达式)将为我们提供以下信息:

    Base.scheme:    "http"       R.scheme:    undef
    Base.authority: "a"          R.authority: ""
    Base.path:      "/b/c/d;p"   R.path:      "/g"
    Base.query:     "q"          R.query:     undef
    Base.fragment:  undef        R.fragment:  undef
    
  • 按照第5.2.2节中的算法,我们得到以下信息:

    T.authority:    ""        ; R.authority
    T.path:         "/g"      ; remove_dot_segments(R.path)
    T.query:        undef     ; R.query
    T.scheme:       "http"    ; Base.scheme
    T.fragment:     undef     ; R.fragment
    
  • 按照§5.3中的算法,我们得到以下信息:

    http:///g
    

注意:该URI有效,因为服务器名称(T.authority为空!


////g///g相同,除了R.path//g,因此我们得到

    http:////g

注意:该URI有效,因为服务器名称(T.authority为空!


最后三个(h//gg////hh///g:f)都是相对路径(path-noscheme)。

  • 解析URI(例如,使用附录B中的正则表达式)将为我们提供以下信息:

    Base.scheme:    "http"       R.scheme:    undef
    Base.authority: "a"          R.authority: undef
    Base.path:      "/b/c/d;p"   R.path:      "h//g"
    Base.query:     "q"          R.query:     undef
    Base.fragment:  undef        R.fragment:  undef
    
  • 按照第5.2.2节中的算法,我们得到以下信息:

    T.path:         "/b/c/h//g"    ; remove_dot_segments(merge(Base.path, R.path))
    T.query:        undef          ; R.query
    T.authority:    "a"            ; Base.authority
    T.scheme:       "http"         ; Base.scheme
    T.fragment:     undef          ; R.fragment
    
  • 按照§5.3中的算法,我们得到以下信息:

    http://a/b/c/h//g         # For h//g
    http://a/b/c/g////h       # For g////h
    http://a/b/c/h///g:f      # For h///g:f
    

不过,我认为这些示例不适合回答我认为您真正想知道的内容。

看看以下两个URI。它们不相等

http://host/a/b/c/d     # Path has 4 segments: "a", "b", "c", "d"

http://host/a/b/c//d    # Path has 5 segments: "a", "b", "c", "", "d"

大多数服务器将对它们进行相同的处理(这很好,因为服务器可以随意以任何希望的方式解释路径),但是在应用相对路径时会有所不同。例如,如果这些是../../e的基本URI,则将获得

http://host/a/b/c/d + ../../e = http://host/a/e

http://host/a/b/c//d + ../../e = http://host/a/b/e

答案 1 :(得分:1)

我很好奇Mojo::URL会做什么,所以我检查了一下。有一个很大的警告,因为它并不声称严格合规:

  

Mojo :: URL实现了RFC 3986,RFC 3987和统一资源定位符的URL生活标准的子集,并支持IDNA和IRI。

这是程序。

my @urls = qw(/g //g ///g ////g h//g g////h h///g:f
    https:///stackoverflow.com////////a/////10161264/////6618577
    );
my @parts = qw(scheme host port path query);
my $template = join "\n", map { "$_: %s" } @parts;

my $base_url = Mojo::URL->new( 'http://a/b/c/d;p?q' );

foreach my $u ( @urls ) {
    my $url = Mojo::URL->new( $u )->base( $base_url )->to_abs;

    no warnings qw(uninitialized);
    say '-' x 40;
    printf "%s\n$template", $u, map { $url->$_() } @parts
    }

以下是输出:

----------------------------------------
/g
scheme: http
host: a
port:
path: /g
query: ----------------------------------------
//g
scheme: http
host: g
port:
path:
query: ----------------------------------------
///g
scheme: http
host: a
port:
path: /g
query: ----------------------------------------
////g
scheme: http
host: a
port:
path: //g
query: ----------------------------------------
h//g
scheme: http
host: a
port:
path: /b/c/h/g
query: ----------------------------------------
g////h
scheme: http
host: a
port:
path: /b/c/g/h
query: ----------------------------------------
h///g:f
scheme: http
host: a
port:
path: /b/c/h/g:f
query: ----------------------------------------
https:///stackoverflow.com////////a/////10161264/////6618577
scheme: https
host:
port:
path: /stackoverflow.com////////a/////10161264/////6618577
query:

答案 2 :(得分:-1)

否-///g似乎更像/g。 “点段” ...是用于通过http URL在层次结构中上下导航的内容。另请参阅URI模块以处理URI中的路径。