我有一个很大的excel文件,其中一些列包含带有长句子的自由文本数据。 我必须将其转换为实木复合地板格式以提取到仓库中。 我无法将其转换为csv,因为那些句子较长的列带有逗号。制表符分隔也不起作用。
这里有任何建议,如何使用python将这种类型的excel文件转换为镶木地板格式?
谢谢!!
答案 0 :(得分:0)
可能可以将其转换为由;
而非,
代替的csv。
如果没有,您可以尝试将其读入熊猫,然后导出到镶木地板中。
https://www.geeksforgeeks.org/convert-excel-to-csv-in-python/
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_parquet.html
答案 1 :(得分:0)
答案 2 :(得分:0)
您可以通过 ODBC 尝试路由。不过,这可能只适用于 Windows 用户。您可以在此处下载 Microsoft Excel ODBC 驱动程序:https://www.microsoft.com/en-us/download/details.aspx?id=13255
有一个 python 脚本将 ODBC 数据源的内容写入 parquet: https://github.com/rondunn/odbc2parquet/blob/master/odbc2parquet.py
如果您不关心涉及 Python,您还可以使用 odbc2parquet
命令行工具 (https://github.com/pacman82/odbc2parquet)。
odbc2parquet -vvv query -c "Driver={Microsoft Excel Driver (*.xls, *.xlsx, *.xlsm, *.xlsb)};Dbq=./test.xls;" test.par "SELECT * FROM [Sheet1$]"
在许多 Windows 系统上,您会发现预装了 32 位 Excel ODBC 驱动程序。如果您想使用它,您必须确保使用命令行工具的 32Bit 变体。