清理熊猫数据框中的网址

时间:2021-04-19 20:46:15

标签: python pandas dataframe numpy

<有更多代码,但我使用 twint 收集了 Twitter 数据。我也在使用 Jupyter Notebooks。我已经过滤了要为图表保留的数据。但是在我的 nx 节点边图中,有网页的完整 URL。我想使用 http://、https:// 和 .com 或 .org 等之后的额外内容。我收到错误“DataFrame”对象没有属性“str ' 当我尝试替换以摆脱 URL 中的“https://”时。>

import csv
import twint
import datetime
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import nest_asyncio
import re
nest_asyncio.apply()

NWO_data = pd.read_csv("TwitterLinksNWO.csv")

NWO_data['urls'].replace('[]', np.nan, inplace=True)
NWO_data.dropna(subset=['urls'],inplace=True)
NWO_data.shape
NWO_data = NWO_data.astype({'urls': np.str}, copy=True) #This is suppose to change it from a object  data type to a string.


urlsCleaned = NWO_data[["urls"]]

print(urlsCleaned.str.replace('https://','1'))
print(urlsCleaned)

1 个答案:

答案 0 :(得分:0)

您的问题出现是因为 urlsCleanedpd.DataFrame 而不是 pd.Series,要解决您必须将行更改为:

urlsCleaned = NWO_data["urls"]

请注意,它们看起来几乎相同,但在您的情况下,它创建了一个包含一列的 pd.DataFrame,在这里它创建了一个 pd.Series