我正在抓取一个音乐流媒体网站,在该网站上对新歌曲进行了更新和编制索引。第一页仅由read_html函数成功加载。但这不适用于第二页及更高版本-相反,该函数再次返回第一页。
结果是由URL的结构引起的。是的。
第一页的URL(显示50首歌曲)为:
https://www.melon.com/genre/song_list.htm?gnrCode=GN0300
第二页的URL(显示第51-100首歌曲)仅在第一页的后面添加一些字符串,以#:
开头https://www.melon.com/genre/song_list.htm?gnrCode=GN0300#params%5BgnrCode%5D=GN0300¶ms%5BdtlGnrCode%5D=¶ms%5BorderBy%5D=NEW¶ms%5BsteadyYn%5D=N&po=pageObj&startIndex=51
read_html
似乎没有以'#'开头的部分;因此基本上,它的运行方式就像我再次输入首页的相同网址一样。
第3页仅在“ startIndex = 101”方面有所不同,因为它是从第101首歌曲开始的。 read_html也会返回第一页。
我认为这个问题源于R处理包含“#”的内容的方式,因为标点符号与注释相关联。是否还有其他方法可以让它标识正确的URL?或快速修复将不胜感激。谢谢。