我希望找到一种在一个html文件中识别和打印与另一个html文件中的句子不同的句子的方法。为此,我创建了三个函数,一个用于打开,读取,剥离空白空间,并剥离html中的文本,一个用于创建将要比较的原始字符串列表,另一个用于将字符串与所有字符串进行比较原始字符串。这是我到目前为止所做的。
def openTXT(txt):
text=open(txt).read()
StripText=text.strip()
StripSplitText=StripText.split('.')
return StripSplitText
def originalSentances(folder):
sentanceList=[]
for item in folder:
for sentance in item:
if item not in sentanceList:
sentanceList.append(item)
return sentanceList
def findUniqueText(massMailerText,inputFolder, outputFile):
for item in inputFolder:
results=open('outputFile','w')
results.write(item)
text=openTXT(item)
for sentance in text:
if sentance in massMailerText:
pass
else:
outputFile.write(sentance)
massMailSentances= originalSentances('original')
findUniqueText(massMailSentances,'modified','uniqueResults.txt')
当我在一个文件上运行时,我收到一个错误,上面写着“没有suck文件或目录:'m')任何想法为什么会发生这种情况以及如何解决这个问题?
如果这有用,内核也会打印出来
IOError Traceback(最近一次调用 最后一个)C:\ Users \ amcclure \ Desktop \ findUniqueText.py in() 28 29 massMailSentances = originalSentances('original') ---> 30 findUniqueText(massMailSentances,'modified','uniqueResults.txt')
C:\ Users \ amcclure \ Desktop \ findUniqueText.py in findUniqueText(massMailerText,inputFolder,outputFile) 20个结果=打开('outputFile','w') 21 results.write(item) ---> 22 text = openTXT(item) 23为文本中的传票: 24如果在massMailerText中发送信息:
C:\ Users \ amcclure \ Desktop \ findUniqueText.py in openTXT(txt) 2 3 def openTXT(txt): ----> 4 text = open(txt).read() 5 StripText = text.strip() 6 StripSplitText = StripText.split('。')