如果我在传入的Azure ML数据集中有一列类型为string的数据,其中包含HTML标记,搞砸了我的结果,我该如何删除这些标记?
答案 0 :(得分:1)
像这样:
def azureml_main(dataframe1 = None, dataframe2 = None):
dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
return dataframe1,
请记住在Execute Python Script
步骤前面加Clean Missing Data
步骤并更改操作以删除整行(如果适用)。这很重要,因为Execute Python Script
步骤无法返回空dataframe
。在这种情况下,只有您知道您的数据。
我还要指出Preprocessing Text
步骤允许您应用正则表达式。这是另一种可能适合您的情况。