rvest:read_html()无法读取包含“#”的网址

时间:2018-11-20 20:28:50

标签: r url web-scraping rvest

我正在抓取一个音乐流媒体网站,在该网站上对新歌曲进行了更新和编制索引。第一页仅由read_html函数成功加载。但这不适用于第二页及更高版本-相反,该函数再次返回第一页。

结果是由URL的结构引起的。是的。

第一页的URL(显示50首歌曲)为:

https://www.melon.com/genre/song_list.htm?gnrCode=GN0300

第二页的URL(显示第51-100首歌曲)仅在第一页的后面添加一些字符串,以#:

开头
https://www.melon.com/genre/song_list.htm?gnrCode=GN0300#params%5BgnrCode%5D=GN0300&params%5BdtlGnrCode%5D=&params%5BorderBy%5D=NEW&params%5BsteadyYn%5D=N&po=pageObj&startIndex=51

read_html似乎没有以'#'开头的部分;因此基本上,它的运行方式就像我再次输入首页的相同网址一样。

第3页仅在“ startIndex = 101”方面有所不同,因为它是从第101首歌曲开始的。 read_html也会返回第一页。

我认为这个问题源于R处理包含“#”的内容的方式,因为标点符号与注释相关联。是否还有其他方法可以让它标识正确的URL?或快速修复将不胜感激。谢谢。

0 个答案:

没有答案