网络搜索SEC Edgar 10-K和10-Q文件

时间:2015-07-20 22:53:18

标签: web-scraping beautifulsoup edgar

是否有人有过刮取SEC 10-K和10-Q备案的经验?我试图从这些文件中删除每月实现的股票回购时遇到困难。具体而言,我想获得以下信息:1。期间; 2.购买的股份总数; 3.每股平均支付价格; 4.作为公开宣布的计划或计划的一部分购买的股份总数; 5.从2004年到2014年,每个月根据计划或计划购买的股票的最大数量(或近似美元价值)。我总共有90,000多种表格需要解析,所以这样做是不可行的手动

此信息通常在10-Ks的“第2部分第5项关于注册人的普通股权,相关股东事项和发行人购买股权证券的市场”和“第2部分第2项未注册的股权证券销售和所得款项的使用”中报告。

以下是我需要解析的10-Q文件的一个示例: https://www.sec.gov/Archives/edgar/data/12978/000104746909007169/a2193892z10-q.htm

如果公司没有股票回购,则季度报告中可能会缺少此表。

我曾尝试使用Python BeautifulSoup解析html文件,但结果并不理想,主要是因为这些文件不是以一致的格式编写的。

例如,我能想到解析这些表单的唯一方法是

from bs4 import BeautifulSoup
import requests
import unicodedata
import re

url='https://www.sec.gov/Archives/edgar/data/12978/000104746909007169/a2193892z10-q.htm'

def parse_html(url):
    r = requests.get(url)
    soup = BeautifulSoup(r.content, 'html5lib')
    tables = soup.find_all('table') 

    identifier = re.compile(r'Total.*Number.*of.*Shares.*\w*Purchased.*', re.UNICODE|re.IGNORECASE|re.DOTALL)

    n = len(tables) -1
    rep_tables = []

    while n >= 0:
        table = tables[n]
        remove_invalid_tags(table)
        table_text = unicodedata.normalize('NFKD', table.text).encode('ascii','ignore')
        if re.search(identifier, table_text):
            rep_tables += [table]
            n -= 1
        else:
            n -= 1

    return rep_tables

def remove_invalid_tags(soup, invalid_tags=['sup', 'br']):
    for tag in invalid_tags:
        tags = soup.find_all(tag)
        if tags:
            [x.replaceWith(' ') for x in tags]

上面的代码只返回可能包含重新购买信息的杂乱。但是,1)它不可靠; 2)它很慢; 3)以下步骤来刮取日期/月份,股票价格和股票数量等等,这样做会更加痛苦。我想知道是否有更可行的语言/方法/应用程序/数据库来获取此类信息?万分感谢!

1 个答案:

答案 0 :(得分:5)

我不确定python,但在R中有一个使用'finstr'包(https://github.com/bergant/finstr)的漂亮解决方案。 'finstr'使用XBRL格式自动从EDGAR中提取财务报表(损益表,资产负债表,现金流等)。