厲害了,「文轉理」!學語言的直博人工智慧,他們怎麼做的?

2022年06月28日13:14:09 教育 1563

文 | 《中國科學報》記者 溫才妃


這個夏天,復旦大學漢語言文學專業本科生張向旭、徐凝雨成了同學們口中的「好厲害」「不可思議」。


因為他們做了一件很多人想做,卻不敢做或做不到的事——從復旦大學中國語言文學系直博攻讀人工智慧博士。


更何況,張向旭還是一名「妥妥」的文科生,高中、本科學的都是文科。


今年的秋季學期,他們各自將迎來新的身份——張向旭即將赴中國人民大學高瓴人工智慧學院攻讀博士學位,徐凝雨以總績點3.8、漢語言專業排名第二的成績,成為復旦大學計算機科學技術學院教授黃萱菁直博生。


厲害了,「文轉理」!學語言的直博人工智慧,他們怎麼做的? - 天天要聞

張向旭



素來「理轉文」易、「文轉理」難,擺在他們面前的坎兒不只是補一門數學、物理課程這樣簡單。不可思議的背後,他們是怎麼做到的?


雖然難,靠努力也能實現


和大部分文科生的想法雷同,張向旭一開始覺得「編程又難又用不上」,多少有些抗拒。但大一修「VB程序設計」時,他竟發現「平時作業得分還挺高」。


到了大二,他閱讀了人工智慧領域自然語言處理和搜索專家吳軍的《數學之美》。


書中的系列文章曾創下百萬點擊量,「一下子吸引了我對自然語言處理方面的好奇心」。不久後的專業課上,教師又再度提及計算語言學。


在好奇心驅使和前輩建議下,張向旭自學了斯坦福大學知名課程《深度自然語言處理》。


「學習後,我特別興奮,找到復旦計算機科學技術學院教授邱錫鵬,請他指點該學什麼課程,最終確定了由漢語言轉向自然語言處理方向的意願。」


然而,擺在張向旭面前最大的難題無疑是補足數理基礎。


正式學習前,他利用假期時間,先在慕課上學習了一遍課程,如國防科技大學的《概率論與數理統計》、西安電子科技大學的《實用大眾線性代數》等。


慕課學習時,很多人都有棄課的經歷,但他「給自己定『小目標』,以周為單位,把每周要上哪幾門課先定下來,慢慢堅持了下來」。


說到堅持,張向旭曾在大一結束後去參軍,新兵連要考核3000米長跑。


考前他不慎崴腳,為了不錯過,他噴了雲南白藥,咬牙堅持跑了下來。


復旦中文系提供12個學分,供學生在全校範圍內自由選課。但最後,為了補足《高等數學》《概率論與數理統計》《線性代數》《模式識別與機器學習》《神經網路與深度學習》等理工科基礎課程,張向旭選了近30個學分,超了10多個學分。


最多的一個學期,他選修了四門理工科課程,「完成一次作業,要一個下午加一個晚上」。


在跨學科上同樣付出超常努力的還有劉勤。


2018年,當時還是復旦哲學學院大三學生的她,在保研時希望選擇計算機科學技術學院的自然語言處理方向。


與張向旭有所不同的是,劉勤學的是一個偏理科的文科專業——邏輯與科學哲學,數學的基礎訓練一直沒有斷過,高中所學的也是理科。


她更在意的是補足計算機的課程短板,並選擇了輔修/雙學位來彌補。


然而,輔修的學分要求高,約四五十個學分。


學生一學期通常選25~28個學分,但劉勤上輔修的那兩個學期,每學期要選30~32學分才能達到要求,已接近每學期學分的「臨界值」——不能超32個學分。


她還要去旁聽復旦計算機科學技術學院教授黃萱菁的課。


劉勤在邯鄲校區,黃萱菁在張江校區,每周劉勤還要坐半小時校車去另一個校區聽課。


「精力上確實有點跟不上,最後我堅持學完了計算機方面的基礎課程,但並沒有修滿獲得雙學位證書的學分。其實自始至終,我就是想要通過輔修課程打下計算機基礎。」她最終如願保研,師從復旦計算機科學技術學院教授張奇,今年正準備前往美國南加州大學繼續攻讀博士。


不一定成功,但也無須「破釜沉舟」


說到文轉理,很多人覺得難度爆表。但黃萱菁所在的自然語言處理實驗室,卻通常鼓勵學生「努力試一試」。


實驗室中有多位來自中文、哲學、外語專業的文轉理研究生。


厲害了,「文轉理」!學語言的直博人工智慧,他們怎麼做的? - 天天要聞

徐凝雨 復旦大學供圖



徐凝雨就是其中一名。而徐凝雨的本科師兄錢鵬也是從這個實驗室畢業,後赴美國麻省理工學院腦與認知科學系讀博,他也是黃萱菁口中「近10年來最滿意的三名學生之一」。


國外不少高校都有語言學系,自然語言處理與語言學不分家。


黃萱菁在境外高校任職的同行好友中,既有本科中文系出身的,也有不少計算機出身的知名教授。


而國內高校的自然語言處理散落在計算機系、中文系、外語系等院系中。


「文轉理有一道坎兒,但邁過去了,只會越做越好。」她告訴《中國科學報》,自然語言的語法規則都是由語言學家書寫,有語言學背景的學生更容易發現機器不能識別的錯誤。


中文系同事經常給她推薦學生,她也鼓勵計算機專業的學生去修中文系課程。


錢鵬、徐凝雨本科初期就找了黃萱菁。「他們的特點是口頭、筆頭的表達能力很強,無論是寫論文還是做演講,表達能力都很重要。」


考核錢鵬,她用了兩年;輪到徐凝雨,只用了一年。「這就是『前人種樹後人乘涼』的好處吧!」黃萱菁笑道。


即便這樣,也沒有人敢打包票,文轉理一定可以成功。


除了補足理工科課業外,黃萱菁給錢鵬、徐凝雨的要求是通過機考。因為能不能把想法變成程序語言,必須通過上機測試才能明確。


每年都有各專業的尖子生折在最後的機考中。


而這兩人正是在機考中拿到合格成績,且本專業績點名列前茅,才得以跨學科成功。


張向旭也一樣。「整個過程中,我都沒有下『破釜沉舟』的決心。如果能轉過去,我會朝這個方向繼續努力;如果轉不過去,我會考慮在本系開展計算方向相關研究。唯一下定決心的是一定要做學科交叉。」


能夠直博人工智慧,張向旭直言「有一定偶然性」,中國人民大學高瓴人工智慧學院給了文科生測試的機會。


但很多高校對直博的學科要求都限定在計算機、通信等理工科專業,並未對文科生敞開大門。


唯一讓張向旭感到遺憾的是自己在本科期間沒有參與學生實踐。


有一次,邱錫鵬實驗室里的研究生想找幾名本科生組隊參加比賽,他趕緊報了名,可惜後來發起者因種種原因棄賽。


他把自己的遺憾告訴了邱錫鵬,「邱老師鼓勵我說,比賽固然鍛煉人,但其實把課程設計認真做好,也是一種動手能力的訓練」。


同樣的遺憾並沒有發生在徐凝雨身上。本科期間她就進入黃萱菁實驗室。接受《中國科學報》採訪當天,黃萱菁正在幫徐凝雨修改論文,這篇論文準備投給自然語言處理的頂會。


靠著自身靈氣,徐凝雨發現了一個好問題。還沒正式讀博就已有所產出,這讓黃萱菁很為她驕傲。


學程探索,為跨學科提供更多可能


學業負擔重、上課與實踐衝突、不一定能轉成功……文轉理暴露的問題,促使復旦迅速反思跨學科教育。


2017年,復旦開始探索「2+X」本科培養體系。


「2」是指從通識教育和專業培養兩方面入手,夯實個人發展基礎;「X」是指基於學生個性化成長需求,在學分制下提供專業進階、跨學科發展、創新創業等多種發展路徑。


其中,通過「學程」建設為學生提供交叉融合發展路徑,「2+X」方案已在2020年覆蓋復旦所有院系。


何謂學程?學程源於德國,發展於美國。我國台灣地區上世紀70年代開始在高校嘗試學程,後來學程多用於學科交叉、創新創業教育。


復旦大學教務處副處長鬍波解釋道,我國高校多採用輔修實現學科交叉,學程與輔修有相似之處,也有不同之處。


復旦的做法是,當某個交叉需求尚不足以單獨開設一個新專業,學校鼓勵不同院系、學科的一流師資交叉融合,圍繞新興、交叉的學科方向,組建一組有主題、系統的課程模塊,供全校學生選擇。


學生被要求修讀15~20個學分,遠低於輔修的四五十個學分。


學程課程來自於專業課、基礎課和通識課等現有課程,與開課院系的學生同堂授課、同標記分,既保證了教學質量,也給學生帶來了極大的挑戰。


2018年,由復旦哲學學院、數學科學學院和計算機科學技術學院聯合推出的數理邏輯學程是該校的較早一次探索。


這是一門在哲學、數學與計算機科學之間的學科,單獨的院系、第二專業都達不到開課的要求。


該學程中包括了《集合論》《可計算理論》《數學分析原理》等一系列課程。


「學科基礎是一系列課程的組合,做好課程組合,才不至於讓學生在跨學科選課中『東一榔頭西一棒槌』。相同、相似課程的學分可相互替換,如數學學院的《數學分析》課程可替換數理邏輯學程中《數學分析原理》,才不至於給學生增添額外的選課壓力。」復旦哲學學院副教授楊睿之說。


截至目前,復旦陸續推出西方古典學、神經語言學、數據智能與商業決策等8個跨學科學程。


此外,各院系還針對本專業課程,推出供外專業學生跨學科修讀的學程,目前學程總數已達上百個。


「文科生中邏輯性比較強的學生,是可以通過學程嘗試轉向理科的。」胡波強調。


事實上,數理邏輯學程的確吸引到了歷史學系、法律、保險、醫學等專業的學生選修,他們是未來跨學科的苗子。


特別是新高考取消了文理分科,考生高中階段的數學能力考核一視同仁,將給大學階段的文轉理帶來更多的可能。


沒有趕上學程,劉勤、張向旭、徐凝雨有點遺憾,但想到「自己的經歷多少與學程的思路吻合,還為後來的改革提供了參考」,心裡安慰了不少。


事實上,國內類似的教學改革還有南京大學的「三三制」,本科分為大類培養、專業培養和多元培養三個階段。


其中,多元培養又分為專業學術、複合交叉和就業創業三個途徑。


部分國內高校還借用了慕課中「微專業」的名稱,在學生主修專業之外,進行學科交叉或創新創業。「其內涵與學程類似。」胡波補充道。


而在國外,斯坦福大學在2014年就試圖建立14個「CS(計算機科學)+X」的聯合本科專業,實現計算機科學與人文學科間的「重混」,並授予學生「人文與科學聯合學位」。


但是,2019年該項目終止。


北京大學教育學院研究員盧曉東認為,該項目失敗的可能原因是,選課人數下降、核心課程難以滿足、學生負擔太重。


學生如果在4年內完成課程,需要放棄其他學習機會。


「更主要的是,學生需要自己去發現計算機科學與另一個學科『煙濤微茫信難求』的微妙關係,學生對此不勝其煩。」


他提醒道,只有少數人能夠發現上述微妙關係,批量培養會給大多數學習者帶來沮喪,必然包括「犧牲」。


學科交叉是當下新文科、新工科建設的要義,而這些也是新工科、新文科天然附帶的風險和必要的「犧牲」。


復旦採取了「寬進寬出」的態度,降低學程風險值。「未來學程的發展有兩條路徑:一是逐漸形成一個新的交叉學科;二是就算無法開設新學科,也可以滿足學生未來研究生階段發展的需求,幫助他們建立基本的思考能力。」胡波告訴《中國科學報》。


2020年,數理邏輯學程第一屆學生畢業。此後,每年實際畢業的學生並不算多。


「這符合我們的預期,在自由進出的環境下,學生無論是否完成整個培養過程,都能有所收穫。」楊睿之說。


胡波補充道,文轉理僅是通過修課的形式達成,並不是高校應該鼓勵的。「只有通過課程與實踐的穿插,學生才能不斷發現問題,激發對新知識的學習慾望。」


新挑戰,有限時間傳授核心內容


本科教育應厚基礎還是重交叉?對此,儘管當下國內高校仍有不同聲音,但一個不爭的事實是,該問題的解決不再依靠數學、物理等單一學科知識。


例如,美國歐林工學院顛覆傳統大學的做法,不設置院系,學生有專業,但教師無院系,以問題為導向配備師資,進行跨學科學習。


「所謂『基礎』,並不能與學生的本專業知識簡單畫等號,更重要的是發現問題、分析問題、解決問題的能力,如邏輯思維的培養;以及創新能力,如能否用新途徑解決問題。這些能力的培養更多依賴於學科交叉,或者借鑒其他學科的知識。」胡波說。


比如,數理邏輯學程看似跨學科,但實際上卻是計算機、數學、哲學的基礎,培養的是邏輯思維能力,可謂「多學科的基礎」。


為了做好跨學科設計、鼓勵學生實踐,復旦將總學分壓縮至150分左右,其中通識課與專業基礎課的學分控制在115個學分左右。


如果學生不準備跨學科,還可以選擇約35個學分的專業進階課或創新創業課。


對於高校而言,選擇的多樣化其實是「給自己增加難度」。


從前選一門課的人數固定,如今每年都在變化,教室、師資安排需要逐年調整。


從前學生的底子相差無幾,而現在有外專業過來的學生,還沒學基礎課程,教師該怎麼上課?從前中文系本科生培養有統一的標準,如今變成了「中文+X」,標準還需要重新建立……但這些操作層面的問題,都不是阻擋開設學程、培養跨學科人才的理由。


「尤其是高等教育普及化階段的主要特徵之一 ——大學生群體的內在差異不斷擴大。大學教改的主要取向之一是,形成『課程數量大、類型多,學程短』的格局,擴大學生在學習中的選擇權。」不久前,清華大學文科資深教授謝維和在《課程與學程》一文中寫道。


他指出,學程改革的一大難點,便是能否在儘可能短的時間內,讓學生掌握一個學科的核心知識、基本邏輯和主要框架等。


儘管學了三年計算機,編程水平也不亞於計算機專業大四學生,但劉勤坦言自己寫代碼的能力依舊有欠缺。那麼,她是否建立了跨學科能力?


盧曉東認為,能夠把代碼寫出來、跑出來,儘管不那麼漂亮,但足以說明該生已建立了跨學科能力,至於是否要精進,則取決於個人未來職業的實際需求。事實上,「輸出」倒逼「輸入」,劉勤也在盡量提升自己的編程能力。


況且到了研究生階段,基礎依然可以「補課」。黃萱菁建議徐凝雨在直博期間再系統選修一遍本科自學的編程類課程。


在楊睿之看來,學程改革「難在既要打好基礎,又要快速接近前沿研究」。現代數理邏輯發展迅速,與十分有限的課時形成了矛盾。


楊睿之和同事們嘗試拓展課堂的空間,在課外開設「集合論進階」「模型論進階」等進階課程,每年舉辦數理邏輯暑期學校、每個月組織數理邏輯討論班等。


「興趣是最好的老師,用前沿知識吸引學生進入新領域,才能為跨學科培養更多好苗子。」楊睿之如是說。

教育分類資訊推薦

坪地街道2024年科技活動周啟動 - 天天要聞

坪地街道2024年科技活動周啟動

5月16日,深圳市龍崗區坪地街道舉行2024年科技活動周暨樂淮實驗學校第三屆校園科技節啟動儀式。此次科技活動周的主題是「雙向賦能 攜手慧創」,旨在普及科學知識,增強學生的實踐能力。據悉,樂淮實驗學校一直高度注重學生科創啟蒙教育,致力於全面激發學生對科學的熱愛和崇尚。
江蘇省大學最新排名大洗牌:南大穩居第一,南理大挺進前三甲! - 天天要聞

江蘇省大學最新排名大洗牌:南大穩居第一,南理大挺進前三甲!

提到江蘇,許多人會首先想到南京,以及那段痛心的歷史。然而,現代的江蘇省,尤其是南京市,無論是在經濟、文化還是教育方面,都有了長足的發展。特別是在高等教育領域,江蘇省已經躋身全國前列。根據最新軟科中國大學排名,南京大學位居第一,第二名是東南大學,而南京理工大學挺進了前三甲。
我國福建高校排名「大調整」,廈大位列第一,福師大最強「雙非」 - 天天要聞

我國福建高校排名「大調整」,廈大位列第一,福師大最強「雙非」

#頭條創作挑戰賽#坐落在中國東南沿海的福建省,一直以來都是大家關注的焦點。在經濟方面,福建省的產業結構豐富多樣,既有傳統的農業和漁業,也有蓬勃發展的製造業和服務業。特別是電子信息、生物醫藥、新材料等高新技術產業,更是為福建省的經濟發展注入了新的活力。
國際博物館日丨「大學校」更開放,受益群體更多元 - 天天要聞

國際博物館日丨「大學校」更開放,受益群體更多元

來源:環球網 【環球網報道 記者 陳全】2024年5月18日是第48個國際博物館日,今年國際博物館日主題為「博物館致力於教育和研究」(Museums for Education and Research),重點強調了文化機構在提供全面教育體驗方面的關鍵作用。
上海高校法治文化育人聯盟成立,探索大中小學法治教育一體化合作新模式 - 天天要聞

上海高校法治文化育人聯盟成立,探索大中小學法治教育一體化合作新模式

5月18日,上海高校法治文化育人聯盟成立暨大中小學法治教育一體化合作簽約儀式在華東政法大學舉行。滬上18家設有法學學科的高校聯手五家全國紅色法治宣傳教育基地,攜手滬上中小學校,共同探索大中小學法治教育一體化合作新模式。在上海市教衛工作黨委、市教委的指導下,由華東政法大學牽頭成立的上海高校法治文化育人聯盟...
何振林獲全國五一勞動獎章!為德州職業技術學院學子 - 天天要聞

何振林獲全國五一勞動獎章!為德州職業技術學院學子

5月18日,何振林的名字被德州職業技術學院師生們所熟知。他是誰?德州職業技術學院電氣工程系2013級電氣自動化專業學生,也是2024年全國五一勞動獎章獲得者。近日,2024年慶祝「五一」國際勞動節暨全國五一勞動獎章和全國工人先鋒號表彰大會在北京召開。德州職業技術學院校優秀校友何振林被中華全國總工會授予全國五一勞動...