Question

我试图设置一个脚本以分离出文本文件中的所有链接，但是文本不会拆分成单个单词，我不确定为什么。通常，我对这些东西没事，但是这次我要处理编码。

示例文字：乔希：苹果汁是NGL最好的汁 Seratha：WarLord，说谎者，说谎者和欺骗者！齐罗 https://www.blank

输出： b'import os \ ndef main（）：\ n表示os.listdir（）中的文件名：\ n try：\ n F =打开（文件名，\'r + \'，编码=“ utf8”）。read（）\ n F.split（）\ n，如果\'http \'在F：\ n print（F.encode（“ utf8”））\ n除UnicodeDecodeError：\ n print（“ UnicodeDecodeError”）\ nmain（）\ n' b'\ xef \ xbb \ xbfJosh：苹果汁是最好的汁液NGL \ nSeratha：WarLord，骗子，骗子和欺骗者！\ n \ xf0 \ x9f \ x8e \ x80Ziiro \ nhttps：//www.blank'

预期输出： “ b'\ xef \ xbb \ xbfJosh：”，“ Apple”，“ juice”，“ is”，“ the”，“ best”，“ juice”等。

import os
def main():
    for filename in os.listdir():
        try:
            F = open(filename, 'r+', encoding="utf8").read()
            F.split()
            if 'http' in F:
                print(F.encode("utf8"))
        except UnicodeDecodeError:
            print("UnicodeDecodeError")
main()

由于这里提供的帮助，它已得到修复，固定代码如下所示：

import os
os.chdir('data')
for filename in os.listdir():
    F = open(filename, 'r+', encoding="utf8").read()
    for token in F.split():
        if 'http' in token:
            print(token.encode("utf8"))

Answer 1

尝试更换

@PutListOfConcreteModulesHere

使用

generateDaggerClasses

Answer 2

split不会修改F变量。它返回一个字符串列表。您必须执行以下操作：

for filename in os.listdir('.'):
    try:
        F = open(filename, 'r+').read()
        print("Searching in " + filename)
        for token in F.split():
            if 'http' in token:
                print(token)
    except:
        print("Failed to open " + filename)

.split（）问题

2 个答案: