所以,有些背景:我正在尝试训练ML系统来回答有关事件的问题,其中事件描述和问题都是用自然语言提出的;事件描述仅限于单句。
到目前为止,主要问题在于定位一个语料库,用于描述具有足够有限词汇量的事件,以便在所有事件中提出类似的问题(例如,如果所有事件都涉及国际象棋,我可以合理地询问'移动了什么?'并且可以从相当大比例的事件描述句子中得出答案)。
考虑到这一点,我希望找到一个紧密围绕在一些相当有限的主题内描述事件的文本源(例如,更像国际象棋评论的行,而不是国际象棋论坛)。
虽然我对air-traffic controller dialogs的语料库有一些运气,但大多数句子都不是典型的英语(它们涉及很多查理,探戈等)。但是,如果格式如我所述,那么焦点的实际主题是无关紧要的,只要它有一个。
由于我计划在本文中构建自己的语料库,因此不需要标记。
答案 0 :(得分:2)
路透社语料库内容相当单调(商业新闻;首席执行官任命,兼并和收购,主要交易等);我对多语言v2更熟悉,但是IIRC v1语料库是单语英语。这些将是多句新闻故事,但为了与新闻惯例保持一致,你可以期望第一句话形成一个完整故事的合理要点。 http://about.reuters.com/researchandstandards/corpus/
您还可以查看其他TREC,特别是MUC竞赛材料; http://en.wikipedia.org/wiki/Message_Understanding_Conference
答案 1 :(得分:0)
你考虑过Usenet吗?它有一堆特殊的惯例,但像rec.food.cooking
这样的东西似乎大致符合你的描述。 http://groups.google.com/group/rec.food.cooking/请查看例如rec.sports.hockey
或rec.games.video.arcade
也是{{1}}。如果你正在寻找一个规范的,着名的语料库,它还有20个新闻组语料库,它至少包含一些与体育相关的新闻组材料。 http://people.csail.mit.edu/jrennie/20Newsgroups/
(也许在你的国家,“普通大众”对棒球很满意。在这里,足球,你知道,那种你不能用手的那种。)