我有一个数据框,其中有一列带有URL链接的列。有人可以告诉我在NLP中预处理数据时如何处理这些链接吗? 例如,df列看起来类似于此-
likes text
11 https://www.facebook.com
12 https://www.facebook.com
13 https://www.facebook.com
14 Good morning
15 How are.....you?
我们是否需要完全删除这些URL链接,或者还有另一种处理方式?
答案 0 :(得分:1)
过滤掉URL,因为它们不是自然语言。
写这样的谓词应该不难,
也许像str(word).startswith('http')
这样简单的内容就足够了。
或使用正则表达式:
import re
url_re = re.compile(r'^https?://', re.IGNORECASE)
def is_url(word):
return url_re.search(word) is not None
def keep_row(row):
return not is_url(row['text'])
df = df[df.apply(keep_row, axis=1)]