使用rvest从雅虎财务网上抓取资金数据

时间:2018-02-08 00:29:48

标签: r web-scraping rvest

我试图从共享基金或ETF符号的雅虎财经网页中搜集3个项目:基金名称,费用率和净资产。我是网络抓取的新手,不熟悉CSS和XML,并阅读了有关rvest和SelectorGadget工具的内容。好消息是我几乎可以刮掉基金的名字。

对于此示例,我使用的是“FNDB”代码。这两个页面中的任何一个都显示了这些信息 - 我展示了一个比一个更容易使用,但我的代码使用第一个:

Summary page
Profile page

以下是提取标题的代码和结果:

ln -s "/Applications/Sublime Text.app/Contents/SharedSupport/bin/subl" /usr/local/bin/subl
  

{xml_nodeset(1)}
  [1] FNDB:施瓦布基础美国广泛M - 雅虎财务摘要

这不是我想要的,因为结果包含的信息比我想要的多,但我可以使用它。这里的帮助将不胜感激,但我主要是寻找有关提取净资产和费用率信息的代码的指导。如果没有这一点,我将不胜感激地指出我可以在哪里学习如何找出代码。使用SelectorGadget返回“找不到有效路径”。谢谢。

2 个答案:

答案 0 :(得分:2)

你可以得到整个表,考虑一下

result <- html_nodes(webpage, "#quote-summary")
result <- html_nodes(result, "table") %>% html_table()

答案 1 :(得分:1)

我也很难找出[7, 0, 0, 0, 0, 1, 6, 6, 9, 7, 9]和SelectorGadget。更聪明的人可以使用CSS选择器,但我不得不使用XPATH选择器。这是完成任务的一些功能。请记住这些字符的输出是字符,需要转换为数字。

rvest