
景聯文科技案例
該數據要素案例由景聯文科技投遞並參與金猿組委會×數據猿×上海大數據聯盟共同推出的《2025中國大數據產業年度數據要素價值釋放案例》榜單/獎項評選。
隨著教育數字化戰略的持續推進,高質量、結構化、可
在此背景下,圍繞理科競賽與邏輯推理等典型高複雜度教育數據場景,項目聚焦構建一套標準化、結構化的數據資源體系,為後續智能教育相關研究與應用探索提供數據基礎支撐。景聯文科技依託在教育數據採集、標註、治理及資產化方面的工程經驗,承擔了該數據要素建設與交付相關的實施工作,通過系統化的數據工程服務,構建覆蓋數學、物理、化學、生物及邏輯推理等多個維度的結構化題庫,並探索數據在合規前提下的資產化管理路徑。
時間周期:
項目開始時間:2025年3月
中間重要時間節點:
·2025年4月:完成數據源對接與採集框架設計
·2025年5月:完成首批題目標註與質量抽檢
·2025年7月:完成全量數據交付與階段性驗收
·2025年8月:完成數據資產目錄梳理與權屬信息整理
項目完結時間:2025年9月
數據要素價值需求
圍繞教育場景下高質量數據要素建設,提出了數據權屬可追溯、數據標準化程度高、數據可用性強以及資產化路徑清晰等核心需求,確保數據成果具備長期管理與復用價值。
面臨挑戰
1.數據來源分散且權屬複雜:競賽題目來源廣泛,涉及多家出版社、競賽組委會、老師等,需逐一完成版權確認與授權協議簽署。
2.數據結構化難度大:題目中涵蓋大量公式、圖形、符號等非文本內容,傳統OCR識別準確率低,需結合圖像理解與語義標註技術。
3.質量一致性要求高:需保證≥24萬道題目的標註準確率、解析完整性與格式統一性,對流程管理與質量控制體系提出極高要求。
4.數據要素屬性落地難:如何在項目中體現數據的確權、定價、流通等要素特徵,並形成可複製的商業模式,是項目設計的核心挑戰。
數據處理
·數據類型:文本題干、圖像圖表、數學公式、化學方程式、邏輯推理圖等。
·數據量級:累計處理≥24萬道題目,其中理科競賽題≥9萬道(數學≥5萬道),邏輯IQ題≥15萬道。
·數據處理流程:每日處理約3000-5000題,累計標註文本量超5000萬字,處理圖像超8萬張。
·數據格式:全量數據以JSON格式交付,支持嵌套結構與多媒體附件索引,確保數據可擴展、可調用。
數據技術與實施過程
本項目聚焦於將多源、非標準的教育題目數據,通過系統化的技術工程與流程管理,轉化為結構清晰、質量穩定、可管理的數據要素資源。依託景聯文科技自研的 SolarSense 數據標註平台,項目構建並實施了「數據資源化—數據產品化—數據資產化」的分層處理框架,使數據在生產、管理與交付各環節具備一致的技術規範與治理邏輯,為後續應用與擴展提供基礎支撐。
1. 數據匯聚與智能預處理:奠定要素化基礎
針對來自出版機構、競賽組織及數字化檔案等多渠道的異構數據,項目通過 SolarSense 平台的數據接入與預處理模塊,建立統一的數據處理管道。
·合規接入與統一納管:平台支持多類型數據源的配置化接入,對介面數據與文件數據進行統一管理,並自動記錄來源、時間、原始格式等基礎信息,為後續數據管理與使用提供依據。
·多模態數據解析處理:結合文本、圖像與公式等多種數據形態,對題目內容進行解析與關聯處理,確保題干、圖表與語義信息在後續環節作為統一對象被處理。
·自動化清洗與結構化增強:通過規則引擎與模型輔助,對數據進行去重、糾錯與標準化處理,並完成初步的知識點歸類與難度標註,提高後續生產效率。
2. 人機協同的標註與結構化生產體系:核心生產環節
在數據生產階段,項目基於 SolarSense 的標註工作流,構建了以流程化協作和智能輔助為核心的人機協同生產體系。
·智能預標註與輔助標記:平台對題目進行自動分析,預填充學科、題型、知識點等基礎標籤,輔助人工快速完成結構化處理。
·結構化解析與內容完善:標註人員在統一模板與工具支持下完成答案核對與解析整理,確保解析內容在專業性與格式上的一致性。
·邏輯推理題專項處理:針對邏輯與推理類題目,採用專項流程進行標註與校驗,保障推理路徑與結果的嚴謹性。
3. 全生命周期質量管理體系:保障數據可信度
為保證規模化數據生產下的質量穩定性,項目實施了貫穿全流程的質量管理機制。
·自動化規則校驗:在各處理環節部署規則校驗,對數據完整性、格式規範性與基礎邏輯進行自動檢查。
·抽樣與專項質檢:通過隨機抽檢與重點題目複核相結合的方式,對內容準確性與解析合理性進行人工檢查。
·評審與驗收機制:結合整體抽樣評估,對最終數據成果進行綜合質量評估,並將質檢結果反饋至前端流程,形成持續優化閉環。
4. 資產化封裝與交付:支撐可管理與可使用
在數據處理完成後,項目按照統一標準對合格數據進行封裝與整理。
·標準化資產封裝:基於既定數據結構,對題目內容、元數據及相關管理信息進行統一封裝,形成可描述、可識別的數據單元。
·數據目錄構建:通過多維度標籤與檢索機制,提升數據資源的查找效率與使用便利性。
·安全交付與使用控制:根據實際需求,採用加密交付或介面方式提供數據使用支持,確保數據在交付與使用過程中的安全性與可控性。
總結:技術驅動的數據要素實踐閉環
通過上述流程,項目形成了一套從數據匯聚、加工處理到質量控制與交付管理的完整技術實踐路徑。這一過程驗證了在教育場景下,通過工程化方法提升數據結構化水平與可管理性的可行性,為後續相關研究與應用探索提供了穩定的數據基礎,也為同類數據要素建設項目提供了可參考的實施思路。
生態夥伴合作
項目實施過程中,在數據整理、技術工具支持與專業審核等方面,與多類機構開展協作:
·教育內容相關機構:在合規前提下提供題目來源支持
·技術工具支持方:提供OCR識別、NLP預處理等基礎能力支持
·專業審核支持:參與部分學科內容的專業性複核
多方協作共同保障了數據處理過程的規範性與質量水平。
合作服務效果
1.數據交付情況:完成約24萬道題目的結構化處理與交付,整體質量指標滿足項目驗收要求。
2.應用支撐價值:相關數據成果為教育智能化研究與模型訓練等方向提供了基礎數據支持。
3.數據資產化進展:完成題目數據的目錄化整理與權屬信息梳理,為後續管理與使用提供依據。
4.效率與成本優化:相較傳統方式,項目在周期與組織效率方面具有明顯優勢。
5.示範意義:為教育領域數據要素工程化建設提供了可參考的實施路徑。
關於企業
·景聯文科技
景聯文科技是一家專註於 AI 數據服務與數據要素化解決方案的高新技術企業,面向人工智慧企業、科研機構及政府部門,提供從數據採集、標註、治理到數據資產化管理的全流程服務。
·之江實驗室
之江實驗室是浙江省人民政府主導成立的混合所有制新型研發機構,聚焦人工智慧、未來網路、智能製造等領域開展前沿基礎研究與關鍵技術攻關,致力於打造國家戰略科技力量。實驗室在智能教育、科學計算等領域布局多個重大攻關項目,推動產學研用深度融合。
★以上由景聯文科技投遞申報的數據要素案例,最終將會角逐由金猿組委會×數據猿×上海大數據聯盟聯合推出的《2025中國大數據產業年度數據要素價值釋放案例》榜單/獎項。
該榜單最終將於1月上旬上海舉辦的「2025第八屆金猿大數據產業發展論壇——暨AI Infra & Data Agent趨勢論壇」現場首次揭曉榜單,並舉行頒獎儀式,歡迎報名蒞臨現場。