将HTML文档中的表格转换为Excel可读文件的最佳方法是什么?我希望这是一个命令行工具,我可以在我的mac上用bash调用,因为我想批量处理一堆HTML文件。
我知道我可以写一个脚本来相当容易地做到这一点,但我正在寻找可以从命令行调用的通用现有工具。我希望尽可能保留格式,但如果没有其他易于安装和设置的内容符合要求,我愿意回退到CSV。
答案 0 :(得分:3)
Excel可以使用表读取/打开HTML文档,而无需转换。它会自动将表格单元格映射到工作表单元格。
试试这个:
<table> <tr> <th>Heading1</th> <th>Heading2</th> </tr> <tr> <td>R1, C1</td> <td>R1, C2</td> </tr> <tr> <td>R2, C1</td> <td>R2, C2</td> </tr> </table>
答案 1 :(得分:-1)
html2text应该可以工作,至少,它应该能够生成一些你可以选择的逗号分隔列表(或者很容易入侵)。这里有很多链接:
http://www.google.com/search?hl=en&q=html2text&btnG=Search
它有很多标志来控制输出的格式化。试试吧。
- 杰夫