用于Azure ML中的特征提取的TfidfVectorizer和sublinear_tf缩放

时间:2015-09-29 22:02:40

标签: python r azure azure-machine-learning-studio

我正在研究ML文档分类问题。有谁知道如何在Azure ML中进行n-gram Tfidf特征提取和sublinear_tf缩放。

过去我在使用TfidfVectorizer(参见下面的示例)中学习了这个问题,但问题是在AzureML中我无法使用python模块显式定义自己的方法或类,而是不能上传压缩代码。

我是一个蟒蛇人,但是如果有等效的话,我愿意使用R.市场上有一个R样本,但它依赖于unigrams。

TfidfVectorizer(max_df=.67,min_df=.015,lowercase=False ,sublinear_tf=True,norm='l2',tokenizer=AbstractTokenizer())

最佳, -Ari

1 个答案:

答案 0 :(得分:0)

欢迎使用AzureML。

对于定义自己的方法的问题,AzureML是一种基于可视化流程的ML建模编程工具。它与localhost的编程不同。您可以为不同的数据集流程定义模块,并通过在两个模块之间链接的拖放和链接来链接它们。 ML Stduio上有现有模块列表,请参阅https://msdn.microsoft.com/en-us/library/azure/dn906033.aspx。你只需要将它们组合起来制作你自己的ML模型。

对于使用Python模块的问题,Azure上的Python存在一些限制。您无法对Python安装进行成本优化,请参阅https://azure.microsoft.com/en-us/documentation/articles/machine-learning-execute-python-scripts/#limitations的第4项。

但是,对于R语言,您可以导入尚未安装在ML Studio中的软件包。请参阅https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages

同时,您还可以在AzureML中创建自定义R模块。请参阅https://azure.microsoft.com/en-us/documentation/articles/machine-learning-extend-your-experiment-with-r/#importing-packages

所以我认为你可以通过安装依赖&#34; unigrams&#34;来运行R示例。 API install.packages('<pkgs.zip>', ...)

最诚挚的问候。