导航here并搜索“下载所有馆藏”,您将到达link到我要删除的文件(标题和单元格内容)。
当我传入表链接(而不是表内容)时,使用open-uri或Roo返回页面源。
使用Ruby,我如何阅读此文件的内容?理想情况下,我想提取内容并以只读格式保存原始文件。
注意:我已经使用Mechanize / Nokogiri进行刮擦,并希望使用上面链接的Excel文件来补充/验证我的抓取。
答案 0 :(得分:2)
请确保使用Roo::Spreadsheet
而不是Roo::Excelx
,因为只有Roo::Spreadsheet
可以直接打开远程网址:
url = 'https://www.spdrs.com/site-content/xls/TOTL_All_Holdings.xls?fund=TOTL&docname=All+Holdings&onyx_code1=1286&onyx_code2='
sheet = Roo::Spreadsheet.open(url)