JSONDecodeError:预期值:第1行第2列(字符1)

时间:2019-10-05 18:14:42

标签: json python-3.x tensorflow deep-learning

从网站导入JSON数据集时出现此错误。

  

JSONDecodeError:预期值:第1行第2列(字符1)

我正在协同工作,想导入讽刺数据集,但是由于我不知道JSON,所以我陷入了困境。我尝试了不同位置的slash()字符,还更改了-o参数,但没有正常工作...我的代码[reprex]:=====>

!wget --no-check-certificate \ https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json -o /tmp/sarcasm.json

import json
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

#importing the Sarcasm dataset from !wget --no-check-certificate \ https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json \ 
#-o /tmp/sarcasm.json

with open("/tmp/sarcasm.json", 'r') as f:
  datastore = json.load(f)
  datastore = json.detect_encoding()
  print (datastore)
sentences = []
labels = []
urls = []

我认为问题可能在于数据是以HTML格式导入的,必须以JSON格式(或与其兼容的某种格式)进行转换。任何帮助,将不胜感激! :)

3 个答案:

答案 0 :(得分:0)

我怀疑您正在将事务日志(而不是文档本身)保存到/tmp/sarcasm.json。

改为尝试--output-document=sarcasm.json

wget --no-check-certificate "https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json" --output-document=sarcasm.json

答案 1 :(得分:0)

无需检测编码,json库会处理

删除下面的行,然后尝试

  chrome_options = Options()
  chrome_options.add_argument('--headless')
  chrome_options.add_argument('--no-sandbox')
  chrome_options.add_argument('--disable-dev-shm-usage')
  chrome_options.add_argument("--allow-no-sandbox-job")
  chrome_options.add_argument("--disable-gpu")
  chrome_options.add_argument("--disable-notifications")
  chrome_options.add_argument("--disable-popup-blocking")
  chrome_options.add_argument("--disable-infobars")
  chrome_options.add_argument('--hide-scrollbars')
  chrome_options.add_argument("--disable-extensions")

答案 2 :(得分:0)

尝试使用-O代替-o

!wget --no-check-certificate \
    https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json -O /tmp/sarcasm.json