U-SQL +熊猫Merge_asof

时间:2018-09-18 01:19:31

标签: python pandas azure-data-lake u-sql

我第一次使用Azure Data Lake Analytics,并且不确定如何将2个数据集与python中的熊猫进行合并。

我正在合并两个具有不同时间戳的数据集,但是如果它们在特定时间范围内,我需要将它们对齐。这在python中很简单。

示例python代码:pandas.merge_asof(trades, quotes, on='time', by='ticker', tolerance=pd.Timedelta('2ms'))

完整示例可在此处找到:click here

看来我可以在脚本中使用python了,但我不确定如何将两个数据集放入python函数中进行合并。

1 个答案:

答案 0 :(得分:0)

有几种方法可以做到这一点。使用Python,您可以使用Python reducer从U-SQL转到Python。要在ADL中本地运行Python,您需要做一些additional steps

但是我建议在U-SQL中这样做。一种快速的方法是创建一个rounded DateTime column,然后对其进行内部联接:

$ stack install hoogle
Copying from /home/username/.stack/snapshots/x86_64-linux/lts-12.6/8.4.3/bin/hoogle to /home/username/.local/bin/hoogle

Copied executables to /home/username/.local/bin:
- hoogle