从网站导入JSON数据集时出现此错误。
JSONDecodeError:预期值:第1行第2列(字符1)
我正在协同工作,想导入讽刺数据集,但是由于我不知道JSON,所以我陷入了困境。我尝试了不同位置的slash()字符,还更改了-o参数,但没有正常工作...我的代码[reprex]:=====>
!wget --no-check-certificate \ https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json -o /tmp/sarcasm.json
import json
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
#importing the Sarcasm dataset from !wget --no-check-certificate \ https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json \
#-o /tmp/sarcasm.json
with open("/tmp/sarcasm.json", 'r') as f:
datastore = json.load(f)
datastore = json.detect_encoding()
print (datastore)
sentences = []
labels = []
urls = []
我认为问题可能在于数据是以HTML格式导入的,必须以JSON格式(或与其兼容的某种格式)进行转换。任何帮助,将不胜感激! :)
答案 0 :(得分:0)
我怀疑您正在将事务日志(而不是文档本身)保存到/tmp/sarcasm.json。
改为尝试--output-document=sarcasm.json
wget --no-check-certificate "https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json" --output-document=sarcasm.json
答案 1 :(得分:0)
无需检测编码,json库会处理
删除下面的行,然后尝试
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument("--allow-no-sandbox-job")
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument("--disable-notifications")
chrome_options.add_argument("--disable-popup-blocking")
chrome_options.add_argument("--disable-infobars")
chrome_options.add_argument('--hide-scrollbars')
chrome_options.add_argument("--disable-extensions")
答案 2 :(得分:0)
尝试使用-O代替-o
!wget --no-check-certificate \
https://storage.googleapis.com/laurencemoroney-blog.appspot.com/sarcasm.json -O /tmp/sarcasm.json