所以我在Notepad ++中清理.txt,通过使用查找和替换来删除一些垃圾数据。这是我所拥有的一个例子
3
http://i2.ytimg.com/vi/Wkan7AqnIpQ/hqdefault.jpg
https://www.gravatar.com/avatar/903847782a309d54b4cc065a5db01674?s=128&d=identicon&r=PG
3
https://i.stack.imgur.com/qKWlS.jpg?s=128&g=1
https://www.gravatar.com/avatar/69e84fb0e0943636b7de859b6db5eaf4?s=128&d=identicon&r=PG
6
注意:6下面是一个空行
我想要做的是找到所有只有一个字符的行,因为它们不是有效的网址。我自己的研究引导我this question,这是我开始使用这个
的地方\w{1,}
然而,这给了我每组数字和字母(每组用符号分隔)。所以我想添加\r\n
,因为我想删除的行总是包含换行符。它限制了结果,但它让我在文本的每一行结束。
我也试过[0-9]{1,}\r\n
,因为此时我只期望单行数字,这会减少结果,但.imgur链接也会因为最后的1而被提起。
那么我还能做什么呢?我可以摆脱只有1个角色的线条?