我正在用C#编写一个爬虫。有没有办法让URL有效?例如,
在抓取YouTube时,我会收到/watch?foo=bar
和bar.foo.google.com
。我想获得http://www.youtube.com/watch?foo=bar
和http://bar.foo.google.com
。我该怎么做?
答案 0 :(得分:0)
您需要提出更具体的问题。 “使URL有效”非常模糊。
在第一种情况下,您希望/watch?foo=bar
成为http://www.youtube.com/watch?foo=bar
,对吗?那很简单。前者是相对URL。要生成后者,您只需要获取您所在页面的基本URL(http://www.youtube.com
)并将其添加到相对URL,以获取完整的绝对URL。
在第二种情况下,您有bar.foo.google.com
,想要获得http://bar.foo.google.com
,是否正确?嗯,这也很简单。您只需将协议部分(http://
)添加到域的前面。