所以我想从此网址加载所有格式化数据:https://data.mo.gov/Government-Administration/2011-State-Expenditures/nyk8-k9ti
进入r所以我可以过滤一些。我知道如果我得到它后如何正确过滤它,但我无法得到它"注射"正确地进入R.
如果网址结束于" .txt"我已经看到很多方法来提取数据或者" .csv",但是如果这个网址没有以文件类型结尾,我知道如何获取它的唯一方法是拉取html,但后来我得到...所有的html
有几个选项可以将文件作为.csv下载并以这种方式注入,但是如果我能够做到足够好做实际工作,我觉得我应该知道如何从源头直接获取它。
我最接近的是使用该功能:
XML content does not seem to be XML: 'https://data.mo.gov/Government-Administration/2011-State-Expenditures/nyk8-k9ti'
但我收到一条错误
XML content does not seem to be XML: 'https://data.mo.gov/Government-Administration/2011-State-Expenditures/nyk8-k9ti'
这样做也不起作用:(。
如果有人能帮助我或至少指出我正确的方向,我会非常感激。
答案 0 :(得分:0)
我相信您的问题可以更精确地定义为“如何从网站中删除数据”,而不仅仅是简单地从R中的URL加载数据。网络报废是完全另一种技术。如果您了解一些Python,我建议您使用此free course教您如何通过Python访问网站上的数据。或者,你可以尝试this website来获得你想要的东西,但是,一些高级工具不是免费的。希望它有所帮助。
答案 1 :(得分:0)
从表中删除数据非常复杂,但是这个网站提供了一个方便的.json链接文件,你可以很容易地从R访问。可以找到链接 https://data.mo.gov/resource/nyk8-k9ti.json 来自出口 - > SODA API。
<Project DefaultTargets = "Compile" xmlns="http://schemas.microsoft.com/developer/msbuild/2003" >
<PropertyGroup>
<NombreClase1>hola1</NombreClase1>
<NombreClase2>hola2</NombreClase2>
</PropertyGroup>
<ItemGroup>
<Clase1 Include = "hola.cs"/>
<Clase2 Include = "hola2.cs"/>
</ItemGroup>
<Target Name = "Compile">
<CSC Sources = "@(Clase1)" OutputAssembly = "$(NombreClase1).exe">
<Output TaskParameter = "OutputAssembly" ItemName = "Ejecutable1" />
</CSC>
<Message Text="Archivo compilado @(Ejecutable1)"/>
<CSC Sources = "@(Clase1)" OutputAssembly = "$(NombreClase2).exe">
<Output TaskParameter = "OutputAssembly" ItemName = "Ejecutable2" />
</CSC>
<Message Text="Archivo compilado @(Ejecutable2)"/>
</Target>
</Project>