仅为包含Beautiful Soup和Python的特定单词的HTML表提取和写入CSV文件

时间:2017-02-14 23:06:06

标签: python parsing beautifulsoup

我有一个包含多个表的html文件。我想只提取表中某处包含Crtf NoCrtf的表。我能够用

获得所有表格

soup.find_all('table')

但我不需要每个表,只需要包含前面提到的'Crtf NoCrtf'的表。我是蟒蛇和美丽汤的新手,有人能指出我正确的方向吗?

1 个答案:

答案 0 :(得分:1)

BeautifulSoup

csv

不确定你的意思是包含crtf nocrtf,但如果你的意思是文本那么:

function nextInLine(arr, item) {
  // Your code here
  arr.push(item); 

  return arr.shift();
}

如果你的意思是这个课程是' Crtf NoCrtf'然后:

tables = soup.find_all('table')
for table in tables:
    if 'Crtf NoCrtf' in table.get_text():
        {{ "code for writing to csv" }}

使用python中的csv library,您可以以任何您想要的格式将数据写入csv。