R:rvest没有抓到桌子

时间:2017-06-17 03:55:08

标签: html r web-scraping rvest

我正在尝试从website中提取~3000个表并将其放在一个文件中

第一次尝试:

library(rvest)
library(dplyr)
library(data.table)
library(readr)

  url = read_html("http://seia.sea.gob.cl/busqueda/buscarProyectoAction.php?_paginador_refresh=1&_paginador_fila_actual=1")

  relevant_table = url %>%
    html_nodes("table") %>% 
    html_table()

  relevant_table = url %>%
    html_nodes(xpath = '//*[contains(concat( " ", @class, " " ), concat( " ", "contenido", " " ))] | //td | //th') %>% 
    html_table()

它没有用,所以我做了:

write_lines(url,"url.txt")

我可以看到<table> ... </table>部分未保存。

我阅读了以下链接:Link1Link2Link3

在我尝试使用Chrome扩展程序selector gadget检查网站后,xpath部分出现了。

第二次尝试:

library(XML)
library(httr)

url = "http://seia.sea.gob.cl/busqueda/buscarProyectoAction.php?_paginador_refresh=1&_paginador_fila_actual=1"
doc = htmlParse(GET(theurl, user_agent("Mozilla")))
results = xpathSApply(doc, '//*[contains(concat( " ", @class, " " ), concat( " ", "contenido", " " ))] | //td | //th')
results = readHTMLTable(results[[1]])

与第一次尝试相同的问题。我可以注意到,当我在Chrome中查看源代码时,导入的HTML不会显示我可以看到的表格。

如果我转到 view-source:http://seia.sea.gob.cl/busqueda/buscarProyectoAction.php?_paginador_refresh=1&_paginador_fila_actual=1 ,我可以看到该表:

<tr>
         <td>1</td>
         <td><a target=_new href='http://seia.sea.gob.cl/expediente/expediente.php?id_expediente=2132451239&modo=ficha' title='Proyecto Inmobiliario Hacienda Estancilla. Comuna de Valdivia. Región de los Ríos'>Proyecto Inmobiliario Hacienda Estancilla. Comuna de Valdivia. Región de los Ríos</a></td>
         <td>DIA</td>
         <td>Decimocuarta</td>
         <td align=center>h1</td>
         <td><span title="Teléfono: 222 333 232"> <a href="mailto:dsuazo@civilia.cl">Daniel Andrés Suazo Quinteros</a></span></td>
         <td align=right>20,0000</td>
         <td align=right>02/06/2017</td>
         <td>En Admisión</td>
</tr>

有什么想法吗?非常感谢提前!!

0 个答案:

没有答案