Question

<有更多代码，但我使用 twint 收集了 Twitter 数据。我也在使用 Jupyter Notebooks。我已经过滤了要为图表保留的数据。但是在我的 nx 节点边图中，有网页的完整 URL。我想使用 http://、https:// 和 .com 或 .org 等之后的额外内容。我收到错误“DataFrame”对象没有属性“str ' 当我尝试替换以摆脱 URL 中的“https://”时。>

import csv
import twint
import datetime
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import nest_asyncio
import re
nest_asyncio.apply()

NWO_data = pd.read_csv("TwitterLinksNWO.csv")

NWO_data['urls'].replace('[]', np.nan, inplace=True)
NWO_data.dropna(subset=['urls'],inplace=True)
NWO_data.shape
NWO_data = NWO_data.astype({'urls': np.str}, copy=True) #This is suppose to change it from a object  data type to a string.


urlsCleaned = NWO_data[["urls"]]

print(urlsCleaned.str.replace('https://','1'))
print(urlsCleaned)

Answer 1

您的问题出现是因为 urlsCleaned 是 pd.DataFrame 而不是 pd.Series，要解决您必须将行更改为：

urlsCleaned = NWO_data["urls"]

请注意，它们看起来几乎相同，但在您的情况下，它创建了一个包含一列的 pd.DataFrame，在这里它创建了一个 pd.Series。

清理熊猫数据框中的网址

1 个答案: