聲音的波形
既然只能傳遞一維的信息,那麼眼睛看到的二維圖像就面臨著一個編碼問題,這就是語言。
漢語把信號發射器所在的那個人編碼為「我」,把接收器所在的人編碼為「你」,這就是象形文字。
英語把信號發射器編碼為"I",把接收器編碼為"you",這就是拼音文字。
(PS:英語必然是次生文明的文字,而不是主文明的文字[呲牙]因為英語的編碼方式不符合人類90%的信息依賴眼睛的特點)
這種編碼和計算機的H264編碼比起來,是非常粗糙的。
H264編碼在接收端可以完整的解碼出圖像來,而人類語言則需要聽者根據先驗信息去腦補[大笑]
H264也存在先驗信息,就是這個編碼協議本身,它是基於離散餘弦變換(DCT)的,類似於二維圖像在傅立葉級數上的展開。
傅立葉級數的不同項在數學上是線性無關的,構成一組基。
人類的文字其實也可以看作「一組基」。
漢語因為是二維文字,描述起來比較複雜,但英語的描述是很簡單的。
它有26個字母表示不同的讀音,這26個字母暫時可以認為是線性無關的。
用素數給這26個字母編號:
1,A:2,B:3,C:5,D:7,E:11,F:13,G:17。
2,H:19,I:23,J:29,K:31,L:37,M:41,N:43。
3,O:47,P:53,Q:59,R:61,S:67,T:71。
4,U:73,V:79,W:83,X:89,Y:97,Z:101。
那麼,「我」(I)這個視覺信息在數學上的編碼就是23[呲牙]
「你」(you)這個視覺信息在數學上的編碼就是97*47*73[呲牙]
因為素數是不能因式分解的,多個素數的積的因式分解在忽略了順序的情況下是唯一的,所以這個編碼實際上是唯一的。
人腦對來自眼睛的大量信息的處理結果,最終是一組線性無關的基,以及它們的係數組合。
如果人腦的底層機制也跟電腦一樣是數字信號的話,那麼這組係數就是有理數。
如果人腦的底層機制是模擬信號,它是實數,但可以選一個與它最近似的有理數:因為有理數在實數集上是稠密的。
當人腦把眼睛看到的視覺信息處理完之後,獲得了一組有理數:學過實變函數的都知道,有理數和整數實際上沒什麼區別,都是可數的。
(有理數m / n可以看作是二維的整數對(m, n),按照對角線法則它可以與自然數一一對應)
大腦視覺中樞處理完的這組有理數,當然可以因式分解成一組素數的乘積。
現在要把這組信息通過嘴巴傳遞出去,只需要給不同的素數找到不同的讀音即可!
人的發音範圍是有限的(85-1100赫茲),聽力範圍也有限(20-20000赫茲),只要在這兩個範圍的交集上給這些常用的編碼素數找個合適的頻率就行。
為了減輕不同聲音(字母)之間的干擾,這個頻率應該是個素數。
人說話的聲音強度變化不大,可以認為人的語言是調頻波,而不是調幅波。
為什麼深度學習生成的那些特徵,人們看不懂?
因為電腦模型不會說話,沒法和人直接溝通[捂臉]
我覺得,現在的深度學習框架寫的有問題,不該使用計算機的double浮點數,而是該使用2個int整數(構成的有理數)來表示權值。
這樣訓練後的網絡特徵,直接把分子和分母上的2個整數做因式分解,然後給它對應一個聲音頻率就行了。
只要電腦能把它從大量圖片里訓練出來的數據通過聲音讀出來,那麼人類現有科技要破解這種「語言」是很容易的。
深度學習
從本文的以上分析看來,拼音文字確實比象形文字更接近數學。
求個讚賞會不會被罵[捂臉]
或許20年後本文是一篇開天闢地的論文[呲牙]