我试图通过将pdf读取为HTML / XML文件来解析pdf。我知道我可以使用pdftools
包来阅读它。但是,如果我仅以HTML / XML文件的形式读取链接,则无法访问其中的数据。
library(xml2)
library(XML)
html_string="https://mchb.hrsa.gov/whusa11/hstat/hsrmh/downloads/pdf/233ml.pdf"
ht <-read_html(html_string)
nodes<-xml_find_all(ht, ".//body")
> ht
{xml_document}
<html>
[1] <body><p>%PDF-1.6\r%\xe2ãÏÓ\r\n83 0 obj\r<>stream\r\nhÞ\u009cTË\u008eÓ@äSú'»çÑ3\u0096V+EA\\"V«$·\u ...
[2] <html><p>\u009d@a ö¯\u0088Î÷Ü\\&ÔÈýÐâÿZO^"j[FoQ)ÒÇq\n\u009b\u008dx\u0085\u008eß±µ\u009bõo\t\u008f6¢ ...
> ht[1]
$node
<pointer: 0x00000000047901a0>
我也尝试了以下功能
xmlTreeParse
xmlToList
xmlParse
如何访问其中的xml文档内容字符串?我正在努力使它们成为我可以操纵的对象。
答案 0 :(得分:4)
使用pdfx
# download file to your home dir
download.file("https://mchb.hrsa.gov/whusa11/hstat/hsrmh/downloads/pdf/233ml.pdf","233ml.pdf")
# get packages
library(remotes)
remotes::install_github("sckott/extractr")
library(extractr)
#parse
pdfx(file="233ml.pdf", what="parsed")
答案 1 :(得分:2)
您的xml_document ht
包括1x正文和13x html
您可以使用html_node
中的html_nodes
或rvest
提取所需的片段。
library(xml2)
library(XML)
library(rvest)
library(dplyr)
html_string="https://mchb.hrsa.gov/whusa11/hstat/hsrmh/downloads/pdf/233ml.pdf"
ht <-read_html(html_string)
ht %>% html_nodes("html") # look at all html nodes
ht %>% html_node("body") # look at body node
根据您的问题,您似乎希望将正文节点作为文本,对吗?
您可以通过以下方式获得它:
ht %>% html_node("body") %>% as.character -> text #get body node as text
text
[1] "<body><p>%PDF-1.6\r%\xe2ãÏÓ\r\n83 0 obj\r<&g...