应用错误收集

我已经能够成功运行预先训练的TextSum模型（Tensorflow 1.2.1）。输出包括CNN和CNN的摘要。 Dailymail文章（在测试之前被重新编入bin格式）。

我还能够为CNN / Dailymail文章创建上述bin格式测试数据＆amp;词汇文件（按照说明here）。但是，我无法创建自己的测试数据来检查摘要的好坏程度。我尝试修改make_datafiles.py代码以删除已编码的值。我能够创建标记化文件，但下一步似乎失败了。如果有人可以帮助我了解url_lists正在使用的内容，那就太棒了。根据github自述文件 -

＆＃34; 对于每个网址列表all_train.txt，all_val.txt和all_test.txt，相应的标记化故事从文件中读取，小写并写入序列化二进制文件train.bin，val。 bin和test.bin。这些将放在新创建的finished_files目录中。＆＃34;

如何将http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/这样的网址映射到我的数据文件夹中的相应故事？如果有人取得了成功，请告诉我如何解决这个问题。提前致谢！

如何准备文本的测试数据？

1 个答案: