Question

我尝试使用以下代码对数据进行子集化，以便仅提供6/1到昨天的日期范围：

static class Writer
{
    private static StreamWriter fh = new StreamWriter(@"C:\Users\Public\Test\writtenfile.txt",true);

    public static void WriteToFile(string text)
    {
        fh.WriteLine(text);
    }
}

我收到以下错误：AnalysisException：u“无法解析给定输入列的'day_1 = '2018-06-01' df = df.where((F.col('report_date') >= day_1) & (F.col('report_date') < F.current_date()))'

Answer 1

您可以使用sql函数中的lit方法来创建人工列。

df = df.where((F.col('report_date') >= F.lit(day_1)) & (F.col('report_date') < F.current_date()))

PySpark：将字符串转换为日期并分配给变量->子集数据框

1 个答案: