如何准备文本的测试数据?

时间:2018-05-02 01:19:22

标签: python-3.x tensorflow nlp pre-trained-model textsum

我已经能够成功运行预先训练的TextSum模型(Tensorflow 1.2.1)。输出包括CNN和CNN的摘要。 Dailymail文章(在测试之前被重新编入bin格式)。

我还能够为CNN / Dailymail文章创建上述bin格式测试数据&词汇文件(按照说明here)。但是,我无法创建自己的测试数据来检查摘要的好坏程度。我尝试修改make_datafiles.py代码以删除已编码的值。我能够创建标记化文件,但下一步似乎失败了。如果有人可以帮助我了解url_lists正在使用的内容,那就太棒了。根据github自述文件 -

" 对于每个网址列表all_train.txt,all_val.txt和all_test.txt,相应的标记化故事从文件中读取,小写并写入序列化二进制文件train.bin,val。 bin和test.bin。这些将放在新创建的finished_files目录中。"

如何将http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/这样的网址映射到我的数据文件夹中的相应故事?如果有人取得了成功,请告诉我如何解决这个问题。提前致谢!

1 个答案:

答案 0 :(得分:0)

更新:我能够弄清楚如何使用自己的数据来创建用于测试的bin文件(并避免完全使用url_lists)。

这会有所帮助 - https://github.com/dondon2475848/make_datafiles_for_pgn

一旦我弄清楚如何修复ROGUE评分,我会更新答案。