我创建了一个名为dataframe_tweets的数据框。它包含带有推文文本的标题“文本”。在其中搜索并保存到此数据框中的推文。所有搜索词都保存在名为artist_name_no_duplicate的列表中。我想创建一个名为Artist_Mentioned的新列,该列包含文本列中该行中提到的artist_name_no_duplicate中包含的艺术家的名称。我试过.contains,.replace,将其更改为数组,但无济于事。
将列表更改为数组,以便我们可以使用替换功能进行搜索和替换:
import numpy as np**:
myarray = np.asarray(artist_name_no_duplicate)
i = 30
artist_name = myarray[i]
print(artist_name)
创建新列:
dataframe_tweets['Artist_Mentioned'] = dataframe_tweets['text']
过滤新列,使其仅包含提到的艺术家姓名:
dataframe_tweets.loc[dataframe_tweets['Artist_Mentioned'].str.contains('myarray[i]'), 'Artist_Mentioned'] = myarray[i]
打印数据框:
dataframe_tweets
当前它正在工作,但仅搜索实际文本'myarray[i]'
,但我希望它搜索包含在名为myarray
的数组的第i个位置中的字符串。非常感谢您的帮助!< / p>