我正在从Google Biqquery中的查询中提取数据。我正在通过python脚本连接到Google API,在python脚本中执行查询并将查询结果写入CSV文件。 当我从脚本执行查询以获取示例数据(100行)时,一切看起来都很好。但是,当我对整个数据执行脚本时,它会失败。
UnicodeEncodeError:'ascii'编解码器无法在位置38处编码字符u'\ xe7':序数不在范围内(128)
我看到这是python错误,但是当脚本试图处理具有非英语字符的记录时会发生这种情况。 我在Hive中遇到了同样的问题,但是我使用下面给出的RLIKE函数解决了这个问题
(CASE WHEN FIELD1 not rlike '[^a-zA-Z()\\|\\d\\s\\(_)\\-\\(/):]' THEN FIELD1 ELSE 'data' END) AS FIELD1
Google BigQuery中是否有类似的方法或功能来查找和替换非英文字符? 还是可以在python脚本中处理?
代码段:
job_id, _results = MY_CLIENT.query("""select FIELD1, FIELD2, FIELD3, FIELD4 FROM TABLE1""", use_legacy_sql=True)
complete, row_count = MY_CLIENT.check_job(job_id)
results = MY_CLIENT.get_query_rows(job_id)
outfile = open('C:\\Users\\test.csv', 'w')
for row in results:
for key in row.keys():
if key == 'FIELD4':
outfile.write("%s" %str(row[key]))
else:
outfile.write("%s," %str(row[key]))
outfile.write("\n")
outfile.close()
预先感谢您的帮助!
答案 0 :(得分:2)
您可以在下面使用删除非ASCII字符
REGEXP_REPLACE(field1, r'([^\p{ASCII}]+)', '')
下面是一个示例,可以用来查看其工作原理
#standardSQL
WITH `project.dataset.table` AS (
SELECT '12 - Table - Стол - test' AS field1 UNION ALL
SELECT '23 - Table - الطاولة' UNION ALL
SELECT '34 - Table - שולחן'
)
SELECT
REGEXP_REPLACE(field1, r'([^\p{ASCII}]+)', '') AS ascii_only,
field1
FROM `project.dataset.table`
有结果
Row ascii_only field1
1 12 - Table - - test 12 - Table - Стол - test
2 23 - Table - 23 - Table - الطاولة
3 34 - Table - 34 - Table - שולחן
答案 1 :(得分:2)
此问题与Python 2.7有关,它缺乏对处理unicode的支持,因此所有内容均以基本ASCII(7位)进行编码。
不丢失那些字符的一种方法是在脚本中的UTF-8
中明确工作:
outfile.write("%s" %(row[key].encode('utf-8'))
这是在python 3.x中默认发生的情况,因此这就是为什么您不会看到错误的原因。
不过,也许最好的做法是先将这些数据导出到GCS,然后从那里进行工作(如果可以的话,还可以迁移到Python 3.x,这样会更好;)!)