如何使用java分割Excel文件?

时间:2011-07-01 05:52:10

标签: java excel apache-poi

我的Excel表格有200000行。我想分割每50000条记录的excel文件。 我正在使用Apache POI API读取和写入Excel文件。如果行数达到定义的记录大小,可以拆分文件。请帮助我找到解决该问题的方法。

代码:

public String[][] getSheetData(int SheetIndex)
 {
    int noOfColumns = 0;XSSFRow row = null;
    XSSFCell cell = null;
    int i=0;int noOfRows=0;
    int j=0;
    String[][] data=null; XSSFSheet sheet=null;

    try {
                    loadFile();  //load give Excel
                    if(validateIndex(SheetIndex))
                    {
                            sheet  = workbook.getSheetAt(SheetIndex);
                            noOfColumns = getNumberOfColumns(SheetIndex);
                            noOfRows =getNumberOfRows(SheetIndex)+1;
                            data = new String[noOfRows][noOfColumns];
                            Iterator rowIter = sheet.rowIterator();
                            while(rowIter.hasNext())
                            {
                                row = (XSSFRow) rowIter.next();
                                Iterator cellIter = row.cellIterator();
                                j=0;
                                while(cellIter.hasNext())
                                {
                                    cell  = (XSSFCell) cellIter.next();
                                    if(cell.getCellType() == cell.CELL_TYPE_STRING)
                                    {
                                        data[i][j] = cell.getStringCellValue();
                                    }
                                    else if(cell.getCellType() == cell.CELL_TYPE_NUMERIC)
                                    {
                                        data[i][j] = Double.toString(cell.getNumericCellValue());
                                    }

                                    j++;
                                }

                                i++;
                            }   // outer while


                    }
                    else throw new InvalidSheetIndexException("Invalid sheet index.");


                } catch (Exception ex) {
                    logger.error(ex);}

        return data;
 }

发生异常:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at org.apache.xmlbeans.impl.store.Locale$ScrubBuffer.<init>(Locale.java:1885)
    at org.apache.xmlbeans.impl.store.Locale.getScrubBuffer(Locale.java:1904)
    at org.apache.xmlbeans.impl.store.Xobj.getValueAsString(Xobj.java:1205)
    at org.apache.xmlbeans.impl.store.Xobj.fetch_text(Xobj.java:1796)
    at org.apache.xmlbeans.impl.values.XmlObjectBase.get_wscanon_text(XmlObjectBase.java:1332)
    at org.apache.xmlbeans.impl.values.XmlObjectBase.check_dated(XmlObjectBase.java:1269)
    at org.apache.xmlbeans.impl.values.JavaLongHolder.longValue(JavaLongHolder.java:53)
    at org.apache.xmlbeans.impl.values.XmlObjectBase.getLongValue(XmlObjectBase.java:1502)
    at org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.CTRowImpl.getR(Unknown Source)
    at org.apache.poi.xssf.usermodel.XSSFRow.getRowNum(XSSFRow.java:321)
    at org.apache.poi.xssf.usermodel.XSSFSheet.initRows(XSSFSheet.java:180)
    at org.apache.poi.xssf.usermodel.XSSFSheet.read(XSSFSheet.java:147)
    at org.apache.poi.xssf.usermodel.XSSFSheet.onDocumentRead(XSSFSheet.java:134)
    at org.apache.poi.xssf.usermodel.XSSFWorkbook.onDocumentRead(XSSFWorkbook.java:235)
    at org.apache.poi.POIXMLDocument.load(POIXMLDocument.java:190)
    at org.apache.poi.xssf.usermodel.XSSFWorkbook.<init>(XSSFWorkbook.java:189)
    at com.arosys.excelReading.ReadXLSX.loadFile(ReadXLSX.java:49)
    at com.arosys.excelReading.ReadXLSX.getNumberOfSheet(ReadXLSX.java:121)
    at com.arosys.excelReading.ReadXLSX.main(ReadXLSX.java:324)
    Java Result: 1

由于

3 个答案:

答案 0 :(得分:3)

如果您无法使用POI阅读此docuemnt,但表格很简单,我建议您使用Excel打开它,将其另存为CSV文件,然后将此文件分隔为片段。甚至可以使用shell脚本/批处理文件来完成。

如果您有一个巨大的文件并且必须将其拆分,则此建议有效。但是,如果您正在实现应该接收此类excel文件的服务并将其分开,则寻找其他解决方案。

答案 1 :(得分:2)

默认的Java堆大小非常小,特别是在处理大型xml文件时。

你只需要增加你的记忆大小,你会没事的。在运行Java时为-Xmx设置设置合适的大小

答案 2 :(得分:1)

  1. 首先使用Gagravarr的推荐并最大化您的内存占用。如果您的平台允许,请切换到64位JVM。仅这种蛮力方法可以解决您的问题

  2. 如果可能,请避免使用.xlsx文件 - POI在.xlsx上消耗的内存比在.xls上消耗的内存多

  3. POI here建议使用eventmodel进行读取(这里是大部分内存消耗的地方),您也可以尝试使用内存占用空间小的新SXSSF API进行编写(仍处于测试阶段)。