【人工智能】大語言模型評估基準七宗罪 | Jason Wei | 思維鏈作CoT作者 | 成功與否的標準 | 評估基準的七個錯誤 | 面臨的挑戰 | 測試集污染