我是Alteryx的新手,正在尝试将其用于分析非结构化数据。我有一列文字说明,我打算使用K-Means聚类工具进行主题建模。为了使K-means能够处理文本,我需要将文本转换为文档术语矩阵(DTM),以便它们在聚类工具中显示为连续变量。但是,我一直在努力寻找一种将文本转换为DTM的方法。
有人知道这样做的方法吗?我目前正在使用R工具,但不确定如何启动。希望您在这里的所有专家都能帮助我!
我浏览了有关文本分析的文章,并意识到大多数都落在Microsoft Azure ML文本分析宏上。但是,我想避免使用宏(为了扩展性,它不限于每个月的有限运行),而是使用Alteryx中可用的工具。
谢谢大家!
答案 0 :(得分:1)
Alteryx只是一个图形化的拖放工作流,在这里对其进行解释并不是一件容易的事,但是我创建了以下工作流,并将实际的工作流本身包含在Alteryx论坛here中。工作流利用就职演说中的术语频率,但应适用于任何文档集合。它只是根据各种非数字字符拆分单词并进行摘要。工作流程如下所示: