我感兴趣的是从Python Library Newspaper上运行了一些链接(n),这些链接是我目前存储在(nx1)数据帧中的(我们称之为数据帧df)。然后我想将结果存储在另一列df中。
以下是我目前编写的代码:
功能:
def newspaper_analysis(row):
url = row
article = Article(url)
article.download()
article.parse()
text = article.text
return text
将其应用于数据框:
df['text'] = df.apply(newspaper_analysis)
我认为问题在于“url = row”,但我不确定。如果您可以建议如何通过pandas DataFrame编写循环,从中提取值(url链接),然后通过newspaper_analysis函数传递该链接,我将非常感激。
答案 0 :(得分:1)
假设您的数据框中的列名是“ArticleUrl”。然后使用 -
df['text'] = df['ArticleUrl'].apply(newspaper_analysis)