使用XML包“ Null”错误在R中进行Web爬取

时间:2018-08-18 13:15:13

标签: r web-scraping

我正试图将桌子从HKJC放入R。

对于url1,它始终有效。

对于url2&url3,它有时仅工作并且显示错误消息。 错误(函数(类,fdef,mtable):   无法为签名““ NULL””找到函数“ readHTMLTable”的继承方法

对于url4,它随时都无法工作。

library(XML)
url1 = url1 = "http://racing.hkjc.com/racing/info/meeting/RaceCard/English/Local/20180627/HV/1"
starter = readHTMLTable(url1,which=9,encoding = "UTF-8")

url2 = "http://racing.hkjc.com/racing/Info/meeting/Results/English/Local/20180627/HV/1"
result1 = readHTMLTable(url2,which=4,encoding = "UTF-8")

url3 = "http://racing.hkjc.com/racing/Info/meeting/Results/English/Local/20180627/HV/1"
result2 = readHTMLTable(url3,which=5,encoding = "UTF-8")

url4 = "http://racing.hkjc.com/racing/information/English/Racing/DisplaySectionalTime.aspx?RaceDate=27/06/2018&RaceNo=1&All=False"
section = readHTMLTable(url4,which=4,encoding = "UTF-8")

我已经阅读了许多与此主题相关的有用主题。但是,我觉得不得不发布,因为此问题似乎是该网页所特有的。

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

http://racing.hkjc.com/racing/information/English/Racing/DisplaySectionalTime.aspx?RaceDate=27/06/2018&RaceNo=1&All=False

似乎只是重定向到

http:racing.hkjc.com/racing/information/English/Racing/DisplaySectionalTime.aspx

那么也许这就是为什么它不能从原始URL读取HTML表的原因,因为它实际上不存在?