Question

我正在抓取一个音乐流媒体网站，在该网站上对新歌曲进行了更新和编制索引。第一页仅由read_html函数成功加载。但这不适用于第二页及更高版本-相反，该函数再次返回第一页。

结果是由URL的结构引起的。是的。

第一页的URL（显示50首歌曲）为：

https://www.melon.com/genre/song_list.htm?gnrCode=GN0300

第二页的URL（显示第51-100首歌曲）仅在第一页的后面添加一些字符串，以＃：

开头

https://www.melon.com/genre/song_list.htm?gnrCode=GN0300#params%5BgnrCode%5D=GN0300&params%5BdtlGnrCode%5D=&params%5BorderBy%5D=NEW&params%5BsteadyYn%5D=N&po=pageObj&startIndex=51

read_html似乎没有以'＃'开头的部分；因此基本上，它的运行方式就像我再次输入首页的相同网址一样。

第3页仅在“ startIndex = 101”方面有所不同，因为它是从第101首歌曲开始的。 read_html也会返回第一页。

我认为这个问题源于R处理包含“＃”的内容的方式，因为标点符号与注释相关联。是否还有其他方法可以让它标识正确的URL？或快速修复将不胜感激。谢谢。

rvest：read_html（）无法读取包含“＃”的网址

0 个答案: