Spark(pyspark)中的决策树模型如何可视化?

时间:2016-03-21 19:00:27

标签: python apache-spark visualization pyspark decision-tree

我正在尝试在pyspark中可视化决策树结构。但所有工具都用于数据。我找不到任何用于可视化树形结构的东西。或者我是否可以使用toDebugString中的规则进行可视化?

2 个答案:

答案 0 :(得分:5)

我尝试执行以下操作以创建可视化:

  1. 将Spark Spark Decision Tree输出解析为<?xml version="1.0" encoding="UTF-8"?> <CORSConfiguration xmlns="http://s3.amazonaws.com/doc/2006-03-01/"> <CORSRule> <AllowedOrigin>*</AllowedOrigin> <AllowedMethod>GET</AllowedMethod> <MaxAgeSeconds>3000</MaxAgeSeconds> <AllowedHeader>Authorization</AllowedHeader> </CORSRule> </CORSConfiguration> 格式。
  2. 使用JSON文件作为JSON可视化的输入。
  3. 有关更多代码,您可以在GitHub here参考我的原型。

答案 1 :(得分:1)

我也是bigdata / ml工程师,而且我有很多时间需要可视化Spark中的决策树。

我们刚刚发布了dtreeviz 1.1,其中包括对Spark的支持。 现在,您可以可视化树结构,叶信息,预测路径等。只需查看此notebook以获得更多示例。

enter image description here enter image description here