在NLP中预处理数据时如何处理文本数据中的URL链接

时间:2019-03-28 22:34:16

标签: python pandas dataframe nlp preprocessor

我有一个数据框,其中有一列带有URL链接的列。有人可以告诉我在NLP中预处理数据时如何处理这些链接吗? 例如,df列看起来类似于此-

  likes      text 
   11        https://www.facebook.com
   12        https://www.facebook.com
   13        https://www.facebook.com
   14        Good morning
   15        How are.....you?

我们是否需要完全删除这些URL链接,或者还有另一种处理方式?

1 个答案:

答案 0 :(得分:1)

过滤掉URL,因为它们不是自然语言。 写这样的谓词应该不难, 也许像str(word).startswith('http')这样简单的内容就足够了。 或使用正则表达式:

import re


url_re = re.compile(r'^https?://', re.IGNORECASE)


def is_url(word):
    return url_re.search(word) is not None


def keep_row(row):
    return not is_url(row['text'])


df = df[df.apply(keep_row, axis=1)]