如何在R

时间:2015-10-12 13:44:40

标签: html xml r iframe

我想在R:

中阅读和解析以下页面的内容

http://www.karriere.at/jobs/4442194

特别是我想阅读以“Ihr Aufgabenbereich:”开头的文字。 此文本位于单独的内联框架(或iframe)中。

我尝试使用R中的XML包,这是我到目前为止所得到的:

url="http://www.karriere.at/jobs/4442194"
html <- getURL(url)
doc = htmlParse(html)

我不知道如何从这里继续,因为此网页的iframe标记不包含太多信息:

<iframe id="jobFrame" src="/html/4442194" frameborder="0"></iframe>

任何人都可以帮助我吗?

1 个答案:

答案 0 :(得分:3)

iframe包含src属性中所需的所有信息:

library(XML)
library(RCurl)
url="http://www.karriere.at/jobs/4442194"
html <- getURL(url)
doc = htmlParse(html)

url <- paste0("http://www.karriere.at", xmlGetAttr(doc[['/html/body/div[2]/iframe']], "src"))
doc = htmlParse(getURL(url))
xpathSApply(doc, "/html/body/div/div[2]/div[3]/ul/li", xmlValue, trim = TRUE)
# [1] "Neumontage von Klär - und Wasseraufbereitungsanlagenanlagen (teilweise Rohrleitungsbau- Kunststoff und Verkabelungsarbeiten)"
# [2] "Schaltanlagenbau (Verdrahtungsarbeit und Umbauarbeiten)"                                                                     
# [3] "Störungsbehebung an Steuerungen in Schaltanlagen Wasser- und Abwassertechnik"                                                
# [4] "Aufbauen von Umkehrosmoseanlagen (Meerwasserentsalzung)= Vormontage in unserer Werkstätte."                                  
# [5] "Servicearbeiten in der Abwassertechnik"                                                                                      
# [6] "Wartung von Anlagen"