通过pandas DataFrame写一个循环,提取值(一个url链接),然后通过一个函数传递每个url链接元素

时间:2018-03-27 03:47:46

标签: python python-newspaper

我感兴趣的是从Python Library Newspaper上运行了一些链接(n),这些链接是我目前存储在(nx1)数据帧中的(我们称之为数据帧df)。然后我想将结果存储在另一列df中。

以下是我目前编写的代码:

功能:

def newspaper_analysis(row):
    url = row
    article = Article(url)
    article.download()
    article.parse()
    text = article.text
    return text

将其应用于数据框:

df['text'] = df.apply(newspaper_analysis)

我认为问题在于“url = row”,但我不确定。如果您可以建议如何通过pandas DataFrame编写循环,从中提取值(url链接),然后通过newspaper_analysis函数传递该链接,我将非常感激。

1 个答案:

答案 0 :(得分:1)

假设您的数据框中的列名是“ArticleUrl”。然后使用 -

df['text'] = df['ArticleUrl'].apply(newspaper_analysis)