Question

我正在尝试使用统一（版本2.48.3）在两台计算机（都是ubuntu 16.04）之间同步目录的子集。在两台计算机上，我都有一个名为“ research”的目录。它包含我正在处理的每个项目的文件夹。在这些文件夹中的每个文件夹中，都有一个名为“ lit”的文件夹，我想统一所有这些“ lit”文件夹，而不必真正关心项目名称本身。示例：在两台计算机上，都有以下文件夹：

var dateFinalDF = dateFinal.toDF(DateColumn).groupBy(DateColumn).count.withColumn("SUM", sum("count").over()).withColumn("fraction", col("count") /  sum("count").over()).withColumn("Percent", col("fraction") * 100   ).drop("fraction")  

var usageFinalDF = usageFinal.toDF(UsageColumn).groupBy(UsageColumn).count.withColumn("SUM", sum("count").over()).withColumn("fraction", col("count") /  sum("count").over()).withColumn("Percent", col("fraction") * 100   ).drop("fraction")  

var paymentFinalDF = paymentFinal.toDF(PaymentColumn).groupBy(PaymentColumn).count.withColumn("SUM", sum("count").over()).withColumn("fraction", col("count") /  sum("count").over()).withColumn("Percent", col("fraction") * 100).drop("fraction")

其中，我想在两台计算机之间同步object latest { def main(args: Array[String]) { var fileList = new ListBuffer[String]() var dateList = new ListBuffer[String]() var fileL = new ListBuffer[String]() var fileL1 = new ListBuffer[String]() val sparkConf = new SparkConf().setMaster("local[4]").setAppName("hbase sql") val sc = new SparkContext(sparkConf) val spark1 = SparkSession.builder().config(sc.getConf).getOrCreate() val sqlContext = spark1.sqlContext import spark1.implicits._ def f1(number: Double)= { "%.2f".format(number).toDouble } val udfFunc = udf(f1 _) def getCountPercent(df: DataFrame): DataFrame = { df.withColumn("SUM", sum("count").over() ) .withColumn("fraction", col("count") / sum("count").over()) .withColumn("Percent", col("fraction") * 100 ) .withColumn("number", udfFunc(col("Percent"))) .drop("Percent") .drop("fraction") } def occurenceCount(df: DataFrame,column: String) { var usageFinalDF = df.groupBy(column).count.transform(getCountPercent) for (u <- usageFinalDF.collect()) { fileList += column + '~' + u.mkString("~") } } val headerCSV=spark1.sqlContext.read.format("CSV").option("header","true").option("delimiter", """|""").load("C:\\Users\\ayushgup\\Downloads\\Header3.csv") val columns = headerCSV.columns val data = spark1.sqlContext.read.format("CSV").option("delimiter", """|""").load("C:/Users/ayushgup/Downloads/home_data_usage_2018122723_1372673.csv").toDF(columns:_*) for (coll <- columns.toList) { if (coll.toLowerCase().contains("date")) { for (datesss <- data.select(coll).collect()) { dateList += datesss.toString().slice(1, 8) } var dateFinalDF = dateList.toList.toDF(coll) occurenceCount(dateFinalDF,coll) } else if (coll.toLowerCase().contains("usage")) { var r = data.select(coll).withColumn(coll, when(col(coll) <= 1026, "<=1gb").when(col(coll) > 1026 && col(coll) < 5130, "1-5gb") .when(col(coll) > 5130 && col(coll) < 10260, "5-10gb") .when(col(coll) > 10260 && col(coll) < 20520, "10-20gb") .when(col(coll) > 20520, ">20gb") .otherwise(0)).toDF(coll) occurenceCount(r,coll) } else if (coll.toLowerCase().contains("paymentamount")) { var r = data.select(coll).withColumn(coll, when(col(coll) <= 1500, "1-1500").when(col(coll) > 1500 && col(coll) < 1700, "1500-1700") .when(col(coll) > 1700 && col(coll) < 1900, "1700-1900") .when(col(coll) > 1900 && col(coll) < 2000, "1900-2000") .when(col(coll) > 2000, ">2000") .otherwise(0)).toDF(coll) occurenceCount(r,coll) } else if (coll.toLowerCase().contains("accounttenure")) { var r = data.select(coll).withColumn(coll, when(col(coll) > 1000000 && col(coll) < 5000000, "1-5m").when(col(coll) > 5000000 && col(coll) < 11000000, "5-11m") .when(col(coll) > 12000000 && col(coll) < 23000000, "12-23m") .when(col(coll) > 24000000 && col(coll) < 35000000, "24-35m") .when(col(coll) > 36000000, ">36m") .otherwise(0)).toDF(coll) occurenceCount(r,coll) } else if (coll.toLowerCase().equals("arpu")) { var r = data.select(coll).withColumn(coll, when(col(coll) <= 1500, "1-1500").when(col(coll) > 1500 && col(coll) < 1700, "1500-1700") .when(col(coll) > 1700 && col(coll) < 1900, "1700-1900") .when(col(coll) > 1900 && col(coll) < 2000, "1900-2000") .when(col(coll) > 2000, ">2000") .otherwise(0)).toDF(coll) occurenceCount(r,coll) } else if (coll.equals("DisputeAmount") || coll.equals("ticketsAmount")) { var r = data.select(coll).withColumn(coll, when(col(coll) === 0, "0").when(col(coll) > 0, ">0") .otherwise(1)).toDF(coll) occurenceCount(r,coll) } else if (coll.equals("serviceOrdersCreatedLast90Days")) { var r = data.select(coll).withColumn(coll, when(col(coll) === 0, "0").when(col(coll) === 1, "1") .when(col(coll) === 2, "2") .when(col(coll) === 3, "3") .when(col(coll) > 3, ">3")) .toDF(coll) occurenceCount(r,coll) } else { import spark1.implicits._ val actData1 = data.groupBy(coll).count().transform(getCountPercent) occurenceCount(actData1,coll) } } val f = fileList.toList for (flist <- f) { fileL += flist.replaceAll("[\\[\\]]", "") } var ff = fileL.toDF() var df1: DataFrame = ff.selectExpr("split(value, '~')[0] as Attribute", "split(value, '~')[1] as Value","split(value, '~')[2] as Count","split(value, '~')[3] as Sum","split(value, '~')[4] as Percent"); } }，也要在/home/chris/research/projA/lit /home/chris/research/projA/otherstuff /home/chris/research/projB/lit /home/chris/research/projB/otherstuff之间同步。

我已经安装了统一声卡，并通过联机帮助页阅读了自己的内容。基于此，我对统一配置文件default.prf进行了如下修改：

projA/lit

虽然统一成功连接到我的工作计算机，但找不到任何要同步的内容。相反，如果我在上述配置文件projB/lit中将其替换为# Unison preferences file # used for syncing lit between work and home # roots root = /home/chris/research root = ssh://pc-work//home/chris/research # paths path = */lit，就可以了。

因此，问题是：我可以统一为所有项目同步path = */lit子文件夹，而不必指定它们吗？还是我必须在某种循环中包装统一命令才能遍历所有项目文件夹？

Answer 1

path不是实现所需目标的正确方法。从path上的documentation：

请注意，path首选项是按字面意义解释的-它们不是正则表达式。

即使您使用的不是正则表达式，而是外壳程序全局变量，我还是认为path的值不是unison专门解释的。

但是，明智地使用ignore和/或ignorenot可以达到您想要的效果。那些 do 允许shell范围或正则表达式。

例如，（免责声明：我尚未对此进行测试）

ignore = Path proj*/otherstuff

用于同步时要跳过的任何目录。如果要跳过的目录比同步的目录还多，则还可以用其他方式指定它：

ignore = Path proj*/*
ignorenot = Path proj*/lit

请注意，如果要同步的文件和目录已经位于您指定的path的正下方，则无需设置root。

统一：如何同步多个目录中的特定子文件夹？

1 个答案: