Question

这是该网站，共有5个属性

http://cpdocket.cp.cuyahogacounty.us/SheriffSearch/results.aspx?q=searchType%3dZipCode%26searchString%3d44106%26foreclosureType%3d%26dateFrom%3d10%2f6%2f2016+12%3a00%3a00+AM%26dateTo%3d4%2f6%2f2017+11%3a59%3a59+PM

如何将此网站读入R并从中制作出这样的表格

Address                         Prorated_Tax
1462 EAST 115TH STREET          $0.00
10531 37 LEE AVE                $0.00
10526 ORVILLE AVENUE            $0.00
1116 ASHBURY AVENUE             $0.00
2780 EAST OVERLOOK              $0.00

或者我可以用Python做到吗？

Answer 1

使用bash你可以使用curl命令

website = "www.interestingsite.com"
cmd = paste( "curl", website, "> temp" )
system( cmd )

网站的html内容将存储在此临时文件中，通过浏览可以提取其内容。

Answer 2

这个问题相当广泛，但我可以给出一些建议。

您在这里尝试做的事情称为抓取。这里有一篇关于如何在python中执行此操作的文章： http://docs.python-guide.org/en/latest/scenarios/scrape/ 基本思想是使用requests模块获取网页，然后使用lxml将其解析为XML树，并从该树中获取值。

当然，如果您可以更直接地访问这些数据，例如来自其他API或数据库，那就更好了。刮痧是易受攻击的，因为当网页的设计和结构发生变化时，刮痧代码会停止工作，直到您相应地调整它为止。

如果这是一个只运行一次或在一段有限时间内运行的脚本，并且数据量不是太大，这种方法就完全可以了。

如果你搜索它，R也可能有相同的库。

如何读取R中的网页并从中创建数据表

2 个答案: