我当前的程序正在尝试下载文件,然后将它们合并到一个大的Excel文件中。我正在努力解决的问题是,我正在下载它们的网站出于某种原因制作.html文件,但是将.xls扩展名附加到它们上面。这允许它们通过Excel手动打开,但不允许我使用Apache POI来读取它们,因为它看到文件格式/扩展名的差异。我的流程如下:
1 - 运行我的程序的一部分,使用Selenium通过我的网络浏览器下载文件 - 这很好用
2 - 手动打开每个下载的文件和另存为xlsx文件(注意:当我在Excel中手动打开它们时,我被告知有文件格式/扩展名差异只是为了清楚)
3 - 运行我的程序的其余部分,它梳理每个新文件(在步骤2中创建的文件)并将所有数据附加到最终输出文件 - 这样可以正常工作
有没有办法自动化这个过程,还是我必须继续手动完成?
答案 0 :(得分:0)
你在评论中说你在文本编辑器中打开了文件,发现它是HTML5。
我会使用像jsoup这样的HTML解析器来获取您需要的数据,并使用Apache POI创建一个新文件。
答案 1 :(得分:0)
您可以使用EasyXLS库。它允许读取HTML文件并保存为XLSX。
function getUsers(){
$.ajax({
url: "/user.php",
type: 'POST',
dataType: 'json',
success: function(json) {
var tr;
for (var i = 0; i < json.length; i++) {
tr = '<tr>';
tr+="<td><a>"+json[i].first_name +' '+json[i].last_name+"</a></td>";
tr+="<td><a href='mailto:"+ json[i].email +"'>"+ json[i].email + "</a></td>";
tr+='</tr>';
$("#tableBody").append(tr);
}
},
});
}
您可以从以下位置下载适用于Java的Excel库:
https://www.easyxls.com/java-excel-library
有关阅读HTML文件以及支持哪些HTML标记的更多详细信息: https://www.easyxls.com/manual/basics/import-from-html-file-format.html