Question

我有一个数据框，其中有一列带有URL链接的列。有人可以告诉我在NLP中预处理数据时如何处理这些链接吗？例如，df列看起来类似于此-

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

我们是否需要完全删除这些URL链接，或者还有另一种处理方式？

Answer 1

过滤掉URL，因为它们不是自然语言。写这样的谓词应该不难，也许像str(word).startswith('http')这样简单的内容就足够了。或使用正则表达式：

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]

在NLP中预处理数据时如何处理文本数据中的URL链接

1 个答案: