从html中提取表格从命令行中提取

时间:2009-03-17 21:42:50

标签: html excel macos command-line

将HTML文档中的表格转换为Excel可读文件的最佳方法是什么?我希望这是一个命令行工具,我可以在我的mac上用bash调用,因为我想批量处理一堆HTML文件。

我知道我可以写一个脚本来相当容易地做到这一点,但我正在寻找可以从命令行调用的通用现有工具。我希望尽可能保留格式,但如果没有其他易于安装和设置的内容符合要求,我愿意回退到CSV。

2 个答案:

答案 0 :(得分:3)

Excel可以使用表读取/打开HTML文档,而无需转换。它会自动将表格单元格映射到工作表单元格。

试试这个:

  • 将以下数据保存在扩展名为.html的文件中。
  • 使用Excel打开文件
<table>
<tr>
<th>Heading1</th>
<th>Heading2</th>
</tr>
<tr>
<td>R1, C1</td>
<td>R1, C2</td>
</tr>
<tr>
<td>R2, C1</td>
<td>R2, C2</td>
</tr>
</table>

答案 1 :(得分:-1)

html2text应该可以工作,至少,它应该能够生成一些你可以选择的逗号分隔列表(或者很容易入侵)。这里有很多链接:

http://www.google.com/search?hl=en&q=html2text&btnG=Search

它有很多标志来控制输出的格式化。试试吧。

- 杰夫