Question

如果我在传入的Azure ML数据集中有一列类型为string的数据，其中包含HTML标记，搞砸了我的结果，我该如何删除这些标记？

Answer 1

像这样：

def azureml_main(dataframe1 = None, dataframe2 = None):
  dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
  return dataframe1,

请记住在Execute Python Script步骤前面加Clean Missing Data步骤并更改操作以删除整行（如果适用）。这很重要，因为Execute Python Script步骤无法返回空dataframe。在这种情况下，只有您知道您的数据。

我还要指出Preprocessing Text步骤允许您应用正则表达式。这是另一种可能适合您的情况。

如何从Azure ML执行Python脚本步骤中的文本列中删除HTML

1 个答案: