如何从Azure ML执行Python脚本步骤中的文本列中删除HTML

时间:2017-01-16 23:50:23

标签: python azure-machine-learning-studio

如果我在传入的Azure ML数据集中有一列类型为string的数据,其中包含HTML标记,搞砸了我的结果,我该如何删除这些标记?

1 个答案:

答案 0 :(得分:1)

像这样:

def azureml_main(dataframe1 = None, dataframe2 = None):
  dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
  return dataframe1,

请记住在Execute Python Script步骤前面加Clean Missing Data步骤并更改操作以删除整行(如果适用)。这很重要,因为Execute Python Script步骤无法返回空dataframe。在这种情况下,只有您知道您的数据。

我还要指出Preprocessing Text步骤允许您应用正则表达式。这是另一种可能适合您的情况。