小顯卡玩轉大模型,模型分層推理法