我需要使用定义的开始日期和结束日期之间的所有日期填充行集。如果我的开始日期是2017年7月19日,结束日期是2017年7月21日,则行集应包含19/7/2017,20 / 7/2017和21/7/2017。
我想知道是否有一种使用U-SQL
的简单方法答案 0 :(得分:5)
最简单的方法是从您喜欢的仓库中导出您最喜欢的日期维度并将其导入到U-SQL表中。
您也可以使用自定义U-SQL代码执行此操作,如下所示:
DECLARE @outputFilepath string = "output/output74.csv";
//DECLARE @startDate DateTime = DateTime.Parse("19/7/2017");
//DECLARE @endDate DateTime = DateTime.Parse("21/7/2017");
DECLARE @startDate DateTime = DateTime.Parse("1/1/2000");
DECLARE @endDate DateTime = DateTime.Parse("31/12/2017");
// User-defined appliers
// Take one row and produce 0 to n rows
// Used with OUTER/CROSS APPLY
@output =
SELECT outputDate
FROM(
VALUES ( 1 )
) AS dummy(x)
CROSS APPLY new USQLtpch.makeDateRange (@startDate, @endDate) AS properties(outputDate DateTime);
OUTPUT @output
TO @outputFilepath
USING Outputters.Tsv();
代码隐藏文件:
using Microsoft.Analytics.Interfaces;
using Microsoft.Analytics.Types.Sql;
using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
namespace USQLtpch
{
[SqlUserDefinedApplier]
public class makeDateRange : IApplier
{
private DateTime startDate;
private DateTime endDate;
public makeDateRange(DateTime startDate, DateTime endDate)
{
this.startDate = startDate;
this.endDate = endDate;
}
public override IEnumerable<IRow> Apply(IRow input, IUpdatableRow output)
{
// Initialise
DateTime outputDate = this.startDate;
// Loop until date range has been filled out
while (outputDate <= endDate)
{
output.Set<DateTime>("outputDate", outputDate);
// Increment date
outputDate = outputDate.AddDays(1);
yield return output.AsReadOnly();
}
}
}
}
我使用自定义Applier完成此操作,该Applier占用1行并将其转换为0或n。
答案 1 :(得分:4)
我们始终建议开发人员首先使用纯U-SQL方法进行调查,而不是使用C#UDO,这是完成此任务的另一种方法。
首先,考虑如何在U-SQL中获取数字列表
for key, value in json.items(): #access json dict.
if key == 'type': #access 'type' key
if value == 'apple': #check the fruit
if key == 'fields': #ERROR !!! Now I need to access the 'fields' key datas of this same fruit. !!!
print('What a good fruit, be careful on quantity!')
print('more :' + value['protein'] + ', ' + value['glucid'])
if value == 'banana': #if not apple check for bananas
print('One banana each two days keeps you healthy !')
print('more:' + value['protein'] + ', ' + value['glucid'])
这只是10个数字 - 0到9.我们可以使用CROSS JOIN来扩展列表。
@numbers_10 =
SELECT
*
FROM
(VALUES
(0),
(1),
(2),
(3),
(4),
(5),
(6),
(7),
(8),
(9)
) AS T(Value);
现在我们有0到99.我们可以使用CROSS JOIN生成更多数字。
@numbers_100 =
SELECT (a.Value*10 + b.Value) AS Value
FROM @numbers_10 AS a
CROSS JOIN @numbers_10 AS b;
然后从中生成日期列表。
@numbers_10000 =
SELECT (a.Value*100 + b.Value) AS Value
FROM @numbers_100 AS a CROSS JOIN @numbers_100 AS b;
完整的脚本如下所示:
DECLARE @StartDate = DateTime.Parse("1979-03-31");
...
@result =
SELECT
Value,
@StartDate.AddDays( Value ) AS Date
FROM @numbers_10000;
获得数字或日期列表后,可以方便地将其保存到U-SQL表中,以便以后轻松检索列表。
答案 2 :(得分:1)
步骤1:您需要对行集中的行进行确定性排序,以便在逻辑上有意义。因此,找出要按行
排序的列第2步:获取分配给每一行的行号。以下是https://msdn.microsoft.com/en-us/library/azure/mt763822.aspx
的示例步骤3:您可以使用分配给每一行的行号和一个C#表达式来生成每行应该的日期。
答案 3 :(得分:1)
这是一个很好的示例,其中可以使用U-SQL语言的.Net
元素来产生很大的效果。在这种情况下,您可以explode
和Enumerable.Range
来获取可应用于数据的值的递增列表:
DECLARE @startDate DateTime = DateTime.Parse("2000/01/01");
DECLARE @endDate DateTime = DateTime.Parse("2017/12/31");
@dates =
SELECT d.DateValue
FROM (VALUES(@startDate)) AS sd(s)
CROSS APPLY // EXPLODE creates a rowset from all the values in the given list
EXPLODE(Enumerable.Range(0
,(@endDate - @startDate).Days
)
.Select(offset => sd.s.AddDays(offset))
) AS d(DateValue)
;