小显卡玩转大模型,模型分层推理法