我的原始数据来自Twitter。在csv中看起来像这样:
@kevin, There's an important connection
@kevin, @EnvDefenseFund Launch Pad For Energy Innovations
@kevin, RT @HenriVerdier: hello @LesEchos
@chris, you're great @kevin
我正在尝试使用以下代码从数据中提取用户名(可能有更好的方法):
for tweet in tweets:
print tweet[0], re.findall(r"(?<=@)\w+", str(tweet[1]))
结果如下:
@kevin []
@kevin ['EnvDefenseFund']
@kevin ['HenriVerdier', 'LesEchos']
@chris ['kevin']
最终,我希望以下列格式提供数据:
@kevin,
@kevin, @EnvDefenseFund
@kevin, @HenriVerdier
@kevin, @LesEchos
@chris, @kevin
这样,我可以看到人与人之间的关系。
答案 0 :(得分:1)
也许你需要这样的东西:
for tweet in tweets:
a = re.findall(r"(?<=@)\w+", str(tweet[1]))
for i in a:
print tweet[0]+',', '@'+i