<有更多代码,但我使用 twint 收集了 Twitter 数据。我也在使用 Jupyter Notebooks。我已经过滤了要为图表保留的数据。但是在我的 nx 节点边图中,有网页的完整 URL。我想使用 http://、https:// 和 .com 或 .org 等之后的额外内容。我收到错误“DataFrame”对象没有属性“str ' 当我尝试替换以摆脱 URL 中的“https://”时。>
import csv
import twint
import datetime
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import nest_asyncio
import re
nest_asyncio.apply()
NWO_data = pd.read_csv("TwitterLinksNWO.csv")
NWO_data['urls'].replace('[]', np.nan, inplace=True)
NWO_data.dropna(subset=['urls'],inplace=True)
NWO_data.shape
NWO_data = NWO_data.astype({'urls': np.str}, copy=True) #This is suppose to change it from a object data type to a string.
urlsCleaned = NWO_data[["urls"]]
print(urlsCleaned.str.replace('https://','1'))
print(urlsCleaned)
答案 0 :(得分:0)
您的问题出现是因为 urlsCleaned
是 pd.DataFrame
而不是 pd.Series
,要解决您必须将行更改为:
urlsCleaned = NWO_data["urls"]
请注意,它们看起来几乎相同,但在您的情况下,它创建了一个包含一列的 pd.DataFrame
,在这里它创建了一个 pd.Series
。