尝试从R

时间:2016-04-06 20:38:22

标签: html r

所以我想从此网址加载所有格式化数据:https://data.mo.gov/Government-Administration/2011-State-Expenditures/nyk8-k9ti

进入r所以我可以过滤一些。我知道如果我得到它后如何正确过滤它,但我无法得到它"注射"正确地进入R.

如果网址结束于" .txt"我已经看到很多方法来提取数据或者" .csv",但是如果这个网址没有以文件类型结尾,我知道如何获取它的唯一方法是拉取html,但后来我得到...所有的html

有几个选项可以将文件作为.csv下载并以这种方式注入,但是如果我能够做到足够好做实际工作,我觉得我应该知道如何从源头直接获取它。

我最接近的是使用该功能:

XML content does not seem to be XML: 'https://data.mo.gov/Government-Administration/2011-State-Expenditures/nyk8-k9ti'

但我收到一条错误

XML content does not seem to be XML: 'https://data.mo.gov/Government-Administration/2011-State-Expenditures/nyk8-k9ti'

这样做也不起作用:(。

如果有人能帮助我或至少指出我正确的方向,我会非常感激。

2 个答案:

答案 0 :(得分:0)

我相信您的问题可以更精确地定义为“如何从网站中删除数据”,而不仅仅是简单地从R中的URL加载数据。网络报废是完全另一种技术。如果您了解一些Python,我建议您使用此free course教您如何通过Python访问网站上的数据。或者,你可以尝试this website来获得你想要的东西,但是,一些高级工具不是免费的。希望它有所帮助。

答案 1 :(得分:0)

从表中删除数据非常复杂,但是这个网站提供了一个方便的.json链接文件,你可以很容易地从R访问。可以找到链接 https://data.mo.gov/resource/nyk8-k9ti.json 来自出口 - > SODA API。

<Project DefaultTargets = "Compile" xmlns="http://schemas.microsoft.com/developer/msbuild/2003" >
<PropertyGroup>
<NombreClase1>hola1</NombreClase1>
<NombreClase2>hola2</NombreClase2>
</PropertyGroup>
<ItemGroup>
<Clase1 Include = "hola.cs"/>               
<Clase2 Include = "hola2.cs"/>              
</ItemGroup>
<Target Name = "Compile">            
<CSC Sources = "@(Clase1)" OutputAssembly = "$(NombreClase1).exe">            
<Output TaskParameter = "OutputAssembly" ItemName = "Ejecutable1" />                        
</CSC>        
<Message Text="Archivo compilado @(Ejecutable1)"/>          
<CSC Sources = "@(Clase1)" OutputAssembly = "$(NombreClase2).exe">
<Output TaskParameter = "OutputAssembly" ItemName = "Ejecutable2" />                    
</CSC>
<Message Text="Archivo compilado @(Ejecutable2)"/>      
</Target>                       
</Project>