我有一个流行的d3 word cloud的实现。它一直非常适用于非常冗长的文档,但是当我尝试重新使用单词云来显示以下格式的非常简单的txt文件时,我遇到了一个问题:
interesting. interesting. interesting.
boring. boring.
amazing. amazing. amazing.
stupid. stupid. stupid.
average. average.
disappointing.
(ect...)
它基本上只是一个大约20个单词的txt文件。每个单词重复1到5次。我想这个信息来控制字体的大小(重复5次=大字体,1次=小字体)。当我将所有单词放在同一行上时,生成的单词云奇怪地使所有单词的字体大小相同。所以我开始玩它并尝试了一些不同的东西。我达到预期效果的最接近的是上面的txt格式,在每个新单词后都有换行符。
这确实导致了正确的字体大小调整,但它也产生了一个新问题。当我将word_count
对象传递给控制台日志时,我得到了类似的内容:
"⏎boring":1,
"boring":1,
"⏎stupid":1,
"stupid":2,
这意味着词云在视觉中重复了单词(例如,大字体大小的单词“stupid”以及小字体大小的“愚蠢”)。为了让事情更加混乱,这种行为被孤立到了几个字。有些单词在他们面前没有换行符号(即使我仍然按下了记事本,当我使用与⏎符号完全相同的那个txt时,输入记事本。)
我的下一步修复是将“⏎”符号添加到被忽略的单词列表中,希望这会使单词云库将它们视为相同。不幸的是,问题仍然存在。
总结得很好;它也很容易重现,只需要记事本,复制并粘贴上面的单词,看看我在说什么。
如果有人有进一步排查的想法,请告诉我。
极简主义封锁: https://bl.ocks.org/diggetybo/cd644316f52465495f39c8fc27f04de8
(刷新页面将随机化布局)