这是该网站,共有5个属性
如何将此网站读入R并从中制作出这样的表格
Address Prorated_Tax
1462 EAST 115TH STREET $0.00
10531 37 LEE AVE $0.00
10526 ORVILLE AVENUE $0.00
1116 ASHBURY AVENUE $0.00
2780 EAST OVERLOOK $0.00
或者我可以用Python做到吗?
答案 0 :(得分:2)
使用bash你可以使用curl命令
website = "www.interestingsite.com"
cmd = paste( "curl", website, "> temp" )
system( cmd )
网站的html内容将存储在此临时文件中,通过浏览可以提取其内容。
答案 1 :(得分:1)
这个问题相当广泛,但我可以给出一些建议。
您在这里尝试做的事情称为抓取。这里有一篇关于如何在python中执行此操作的文章:
http://docs.python-guide.org/en/latest/scenarios/scrape/
基本思想是使用requests
模块获取网页,然后使用lxml
将其解析为XML树,并从该树中获取值。
当然,如果您可以更直接地访问这些数据,例如来自其他API或数据库,那就更好了。刮痧是易受攻击的,因为当网页的设计和结构发生变化时,刮痧代码会停止工作,直到您相应地调整它为止。
如果这是一个只运行一次或在一段有限时间内运行的脚本,并且数据量不是太大,这种方法就完全可以了。
如果你搜索它,R也可能有相同的库。