我正在尝试使用rvest
吸引大量网站的信息。这些网站的重复模式如下:
https://mpi-lingweb.shh.mpg.de/numeral/Armenian.htm
https://mpi-lingweb.shh.mpg.de/numeral/Dutch.htm
https://mpi-lingweb.shh.mpg.de/numeral/German.htm
我尝试编写一个正则表达式(与stringr
一起使用,并将其用作read_html
中rvest
函数的输入模式,但这似乎不起作用:
library(stringr)
library(rvest)
p <- regex("https://mpi-lingweb.shh.mpg.de/numeral/.*.htm")
q <- read_html(p)
我收到以下错误消息:
Fehler in open.connection(x, "rb") : HTTP error 404.