我正在使用FastText来计算包含长序列字符且没有空格的语料库中的跳过图。大约一个小时后,FastText生成一个包含向量(长度为100)的模型,对应于"单词"语料库中长度为50个字符。
我尝试设置 -minn 和 -maxn 参数,但这没有帮助(我知道它不会赢,但无论如何都要尝试),以及 -wordNgrams 参数仅在有空格时适用,我猜(?!)。这只是一个代表状态的长字符流,没有空格。
文档似乎没有关于此的任何信息(或者我可能错过了什么?)
答案 0 :(得分:1)
该工具只需要您提供的任何以空格分隔的标记。
如果要截断或丢弃长度超过50个字符(或任何其他阈值)的令牌,则需要自行预处理数据。
(如果您的问题实际上是其他问题,请在显示语料库中的示例行的问题中添加更多详细信息,如何在其上调用fasttext,如何查看不满意的结果以及如何期望获得满意的结果相反。