声音的波形
既然只能传递一维的信息,那么眼睛看到的二维图像就面临着一个编码问题,这就是语言。
汉语把信号发射器所在的那个人编码为“我”,把接收器所在的人编码为“你”,这就是象形文字。
英语把信号发射器编码为"I",把接收器编码为"you",这就是拼音文字。
(PS:英语必然是次生文明的文字,而不是主文明的文字[呲牙]因为英语的编码方式不符合人类90%的信息依赖眼睛的特点)
这种编码和计算机的H264编码比起来,是非常粗糙的。
H264编码在接收端可以完整的解码出图像来,而人类语言则需要听者根据先验信息去脑补[大笑]
H264也存在先验信息,就是这个编码协议本身,它是基于离散余弦变换(DCT)的,类似于二维图像在傅立叶级数上的展开。
傅立叶级数的不同项在数学上是线性无关的,构成一组基。
人类的文字其实也可以看作“一组基”。
汉语因为是二维文字,描述起来比较复杂,但英语的描述是很简单的。
它有26个字母表示不同的读音,这26个字母暂时可以认为是线性无关的。
用素数给这26个字母编号:
1,A:2,B:3,C:5,D:7,E:11,F:13,G:17。
2,H:19,I:23,J:29,K:31,L:37,M:41,N:43。
3,O:47,P:53,Q:59,R:61,S:67,T:71。
4,U:73,V:79,W:83,X:89,Y:97,Z:101。
那么,“我”(I)这个视觉信息在数学上的编码就是23[呲牙]
“你”(you)这个视觉信息在数学上的编码就是97*47*73[呲牙]
因为素数是不能因式分解的,多个素数的积的因式分解在忽略了顺序的情况下是唯一的,所以这个编码实际上是唯一的。
人脑对来自眼睛的大量信息的处理结果,最终是一组线性无关的基,以及它们的系数组合。
如果人脑的底层机制也跟电脑一样是数字信号的话,那么这组系数就是有理数。
如果人脑的底层机制是模拟信号,它是实数,但可以选一个与它最近似的有理数:因为有理数在实数集上是稠密的。
当人脑把眼睛看到的视觉信息处理完之后,获得了一组有理数:学过实变函数的都知道,有理数和整数实际上没什么区别,都是可数的。
(有理数m / n可以看作是二维的整数对(m, n),按照对角线法则它可以与自然数一一对应)
大脑视觉中枢处理完的这组有理数,当然可以因式分解成一组素数的乘积。
现在要把这组信息通过嘴巴传递出去,只需要给不同的素数找到不同的读音即可!
人的发音范围是有限的(85-1100赫兹),听力范围也有限(20-20000赫兹),只要在这两个范围的交集上给这些常用的编码素数找个合适的频率就行。
为了减轻不同声音(字母)之间的干扰,这个频率应该是个素数。
人说话的声音强度变化不大,可以认为人的语言是调频波,而不是调幅波。
为什么深度学习生成的那些特征,人们看不懂?
因为电脑模型不会说话,没法和人直接沟通[捂脸]
我觉得,现在的深度学习框架写的有问题,不该使用计算机的double浮点数,而是该使用2个int整数(构成的有理数)来表示权值。
这样训练后的网络特征,直接把分子和分母上的2个整数做因式分解,然后给它对应一个声音频率就行了。
只要电脑能把它从大量图片里训练出来的数据通过声音读出来,那么人类现有科技要破解这种“语言”是很容易的。
深度学习
从本文的以上分析看来,拼音文字确实比象形文字更接近数学。
求个赞赏会不会被骂[捂脸]
或许20年后本文是一篇开天辟地的论文[呲牙]