我需要一些帮助。我是网络抓取的初学者。
我正在一个拥有两个以上级别的网站上工作。
我可以通过python获取所有表,但不能关联主对象和子对象。我有如下表,但无法将index(i)列添加到第一个表中。
如何将索引添加到我的第一个表中,如下所示。谢谢。
我有一个主数组,例如;
[1,2,3,4,5]
我有像这样的详细数组
[1, 2, 3]
[2, 3, 4]
当我获得第二个数组时,我想将第一级ID添加到第二个表/数组。我怎么能添加这个。我已经在注释区域添加了我的代码。 对于示例,我在代码中有两个级别的循环。
谢谢
答案 0 :(得分:0)
首先我在列表中添加了索引
table_km_rows=soup2.findAll('table')[0].findAll("tr")
for tr in table_km_rows:
td = tr.find_all('td')
row = [tr.text.strip() for tr in td if tr.text.strip()]
if row:
row=[i+1,row]
myRelatedCityKMTable.append(row)
然后将我的列表分为几列
df_km=df_km.KM.apply(pd.Series) \
.merge(df_km, right_index = True, left_index = True) \
.drop(["KM"], axis =`enter code here` 1)
df_km.columns=["IL","km","ID"]
#now 'age' will appear at the end of our df
df_km = df_km[['ID','IL','km']]