10月11日,全國信安標委發布關於徵求信安標委技術文件《生成式人工智慧服務 安全基本要求》(徵求意見稿)(以下簡稱《安全要求》)意見的通知。據了解,《要求》旨在支撐8月15日正式生效的《生成式人工智慧服務管理暫行辦法》(以下簡稱 《管理辦法》),提出了提供者需遵循的安全基本要求。
生成式人工智慧也稱AIGC(AI Generated Content),其主要通過大規模的訓練數據,輔之以功能完善的編碼器和解碼器對其進行編碼學習與解碼生成,再通過有效的評估機制後生成用戶所需的內容。例如,全球流行的ChatGPT即為典型的生成式人工智慧,其可以與用戶進行普通聊天、完成信息諮詢、撰寫詩詞文章等。
生成式人工智慧具有易於使用、提高效率、節約成本等顯著優勢,可以輔助企業與個人作出更精準的決策,但與此同時,也面臨著諸多挑戰,數據偏差、監管倫理、隱私安全等已成為人工智慧領域進一步發展亟須解決的問題。
在該大背景下,國家網信辦及時響應市場需求,於4月11日發布《管理辦法》(徵求意見稿)。在廣泛徵求社會各界意見後,短短三個月,7月13日,網信辦、國家發改委、教育部、科技部、工信部、公安部、國家廣電總局七部委聯合發布《管理辦法》正式版,並於8月15日實施,成為全球首部針對生成式人工智慧的法規。多部委聯合發布的形式,也凸顯了生成式人工智慧的跨域複雜性和治理體系化思路。
《管理辦法》主要提出兩種監管政策,一是根據生成式人工智慧服務的風險高低進行分類分級監管,二是根據生成式人工智慧服務適用的不同領域進行行業部門監管。而本次出台的《安全要求》作為其落地支撐性文件,為生成式人工智慧服務提供者提出明確要求和實施路徑以滿足《管理辦法》的監管政策,包括語料安全、模型安全、安全措施、安全評估等。
語料安全要求
應建立語料來源黑名單,應對各來源語料進行安全評估,單一來源語料內容中含違法不良信息超過5%的,應將該來源加入黑名單。對每一種語言,以及每一種語料類型,均應有多個語料來源。使用開源語料、自采語料、商業語料時,需符合相關授權或聲明協議。
應採取關鍵詞、分類模型、人工抽檢等方式,充分過濾全部語料中違法不良信息。應設置語料以及生成內容的知識產權負責人,並建立知識產權管理策略。
個人信息方面,應使用包含個人信息的語料時,獲得對應個人信息主體的授權同意,或滿足其他合法使用該個人信息的條件;應使用包含敏感個人信息的語料時,獲得對應個人信息主體的單獨授權同意,或滿足其他合法使用該敏感個人信息的條件;應使用包含人臉等生物特徵信息的語料時,獲得對應個人信息主體的書面授權同意,或滿足其他合法使用該生物特徵信息的條件。
模型安全要求
提供者不應使用未經主管部門備案的基礎模型。在訓練過程中,應將生成內容安全性作為評價生成結果優劣的主要考慮指標之一。對提供服務過程中以及定期檢測時發現的安全問題,應通過針對性的指令微調、強化學習等方式優化模型。
以交互界面提供服務的,應在網站首頁、服務協議等顯著位置公開—服務適用的人群、場合、用途等信息,第三方基礎模型使用情況,服務的局限性等。生成內容需滿足準確性和可靠性要求。
安全措施要求
應充分論證在服務範圍內各領域應用生成式人工智慧的必要性、適用性以及安全性;服務用於關鍵信息基礎設施、自動控制、醫療信息服務、心理諮詢等重要場合的,應具備與風險程度以及場景相適應的保護措施;
個人信息處理方面,應按照我國個人信息保護要求,並充分參考現行國家標準,如GB/T 35273等,對個人信息進行保護。
圖片、視頻等內容標識方面,應按TC260-PG-20233A《網路安全標準實踐指南—生成式人工智慧服務內容標識方法》進行標識。
安全評估要求
應在服務上線前以及重大變更時開展安全評估,評估可自行開展安全評估,也可委託第三方評估機構開展。安全評估應覆蓋本文件所有條款,每個條款應形成單獨的評估結論,評估結論應為符合、不符合或不適用。
《安全要求》還指出,除本文件提出的基本要求外,提供者還應自行按照我國法律法規以及國家標準相關要求做好網路安全、數據安全、個人信息保護等方面的其他安全工作。