如何将HTML表中的数据解析为Julia数据结构

时间:2014-03-28 04:10:25

标签: html parsing dataframe julia

我想通读一个HTML页面,该页面有一个表格并将该表格加载到Julia的Dataframe中。关于我如何去做的任何想法?是否有任何可能有用的现有软件包?

具体来说,我想在此网页上获取该表格的内容:http://mlr.cs.umass.edu/ml/datasets.html

谢谢

2 个答案:

答案 0 :(得分:2)

我不知道是否有用Julia编写的HTML解析器;如果你有时间,你可以写一个HTML TidyGumbo的约束,用C语言写成。

更新:现在存在Gumbo包装:https://github.com/porterjamesj/Gumbo.jl

答案 1 :(得分:0)

我不知道有任何工具可以做到这一点。似乎最快的解决方案是在R或Python中找到一些代码并进行翻译。