美丽的汤:使用cerain属性提取xml值

时间:2018-08-18 20:11:41

标签: xml web-scraping beautifulsoup

我正在使用this script刮板游戏。

这工作正常,并且正在从xml data中获取信息

我想再向输出csv中提取一个元素。这个:

404

id是随机的,我想要的是type属性“ boardgamepublisher”的链接标记的值,并将它们添加到csv字段(最好是一个单元格中的所有boardgamepublishers)。有时是一个桌游发行商,有时更多。链接元素很多,所以我需要按它们进行过滤

1 个答案:

答案 0 :(得分:1)

 soup = BeautifulSoup(req.content, 'xml')
    items = soup.find_all('item')
    for item in items:

需要添加此代码以添加发布者

 publishers=item.find_all(type="boardgamepublisher" )
        gpublishers=""
        for publisher in publishers:
           gpublishers += publisher["value"]+"," 

第一行返回一个带有

的列表
   <link type="boardgamepublisher" id="1001" value="(Web published)"/>

   <link type="boardgamepublisher" id="1341" value="something else"/>

publisher [“ value”]提取Value属性的内容。

我仍在寻找更好的建议,因为我不满意这种解决方案会很慢。