当前位置: 首页 > 新闻公告 > 正文

新作速递丨司富珍:辛顿对乔姆斯基语言理论批评的三个错误

【 发布日期:2024-11-29 】

以下文章来源于语言战略研究 ,作者司富珍 

“辛顿·乔姆斯基·语言学发展”

多人谈

[编者按]2024年4月8日,有“人工智能教父”之称的杰弗里·辛顿(Geoffrey E. Hinton)在都柏林大学接受尤利西斯奖章的获奖感言里,对乔姆斯基提出了毫不客气的批评:“语言学家被一个名叫乔姆斯基的人误导了好几代……他有一个偏执古怪的理论,即语言不是学会的。他成功地说服很多人相信这一点。但这一看就知道纯粹是胡言乱语。语言显然是学会的。大型神经网络学习语言,不需要任何先天结构,只是从随机权重和大量数据开始。乔姆斯基却仍然在说,但这并非真正的语言,这不算数,这是不对的。许多统计学家和认知科学家也说,永远不可能在这样一个大网络里学习语言。乔姆斯基从来没有提出任何一种有关语义的理论。他的理论全是关于句法的。”这篇发言引起了中国语言学界的关注,陈国华教授把它译为中文,以《杰弗里·辛顿接受尤利西斯奖章时发表的获奖感言》为题,发表在《当代语言学》2024年第4期上。10月8日,霍普菲尔德(John J. Hopfield)和辛顿以“通过人工神经网络实现机器学习的基础性发现和发明”获得诺贝尔物理学奖后,关于大语言模型和语言学发展、辛顿和乔姆斯基的话题再度爆火。

一位人工智能大家,获得了诺贝尔物理学奖;他批评了一位美国的著名语言学家,却引发了中国语言学者的热烈讨论,反思中国语言学的问题。这形成了一个奇妙的蝴蝶效应。我刊随即与《当代语言学》编辑部筹划,联合举办“大语言模型与语言学发展座谈会”。10月17日,座谈会在商务印书馆召开,线上线下学者各陈己见。我刊特就此设多人谈栏目与学界共享。 

本期嘉宾

undefined 

司富珍

北京语言大学语言学系/乔姆斯基研究所 

辛顿对乔姆斯基语言理论批评的三个错误

辛顿的尤利西斯奖获奖感言中有3条与乔姆斯基语言理论相关的关键性批评意见:(1)“语言显然是学会的”;(2)“大型神经网络学习语言,不需要任何先天结构,只是从随机权重和大量数据中开始学习”;(3)“乔姆斯基从来没有提出任何一种有关语义的理论,他的理论都是关于句法的”。同时,他声称他所设计的语言模型“实际上是人类语言的工作模型”。众多研究表明,这3条批评性意见代表了他本人以及一批观点相近的“倒乔”派对于乔姆斯基理论的3个错误性理解。

我们倒着来看,先说第三条意见:“乔姆斯基从来没有提出任何一种关于语义的理论,他的理论都是关于句法的”。只要认真阅读乔姆斯基的原著,就知道这是明显的错读错解。乔姆斯基在最早期的著作《句法结构》中就曾强调:“形式特征和语义特征之间存在对应关系,这一事实不能忽视。这种对应关系应该用一种更为一般的语言理论进行研究,该理论要包括语言形式理论和语言使用理论作为其组成部分……我们发现,这两个领域之间显然存在颇具普遍意义的一些关系……我们应该乐意看到语法将语言的句法框架独立表现出来,让其能够支持语义描写。”1972年,乔姆斯基又出版了《生成语法中的语义学研究》。语义学家海姆(Heim)和克拉策(Kratzer)也撰有《生成语法中的语义学》,从逻辑语义角度为乔姆斯基的语义理论提供了系统的形式化表达。乔姆斯基不同时期的文献,如著作《句法理论的若干问题》《管辖和约束演讲集》和《最简方案》,论文《论名物化》(Remarks on norminalization)等,也都有对句法与语义关系的系统性讨论。只不过,乔姆斯基认为“不能把是否合语法的概念等同于是否有意义”,换言之,句法相对于语义是独立的系统。

再看第二点:“大型神经网络学习语言,不需要任何先天结构,只是从随机权重和大量数据中开始学习”。这一结论可能反映了大语言模型工作的大部分事实,即随机权重和海量数据在机器学习中的重要性,但它也恰恰反映出大语言模型与人类语言工作机制的不同:人类儿童可以在刺激贫乏的情况下习得母语,并且不管每个人接触的语言环境差异多大,数据量差异有多大,其句法构造方面的语言能力发展进程及语法完备程度却几无差异,这就是所谓语言习得的柏拉图问题。它与机器基于海量数据存储与训练的“豪华刺激”机制完全不同。

况且,所谓不需要任何“先天结构”的说法也在一定程度上是个谎言。我们用辛顿自己使得过的方法对ChatGPT 4.o进行了提问,结果表明,语言学家在大语言模型的数据库中做了大量与语法、语义和语用相关的标注和校正工作。说不需要“先天结构”,只是说未“显性”使用乔姆斯基的形式化规则:尽管“大语言模型绕过了乔姆斯基所倡导的语言规则的明确形式化,但对语法、意义和语境等语言特征进行建模的需求却深深植根于语言理论中”。语言学工作者间接参与给予的语法、语义知识可以与先天结构类比。尽管它与人类语言的天赋性还有本质区别,前者是“人工的”“外在的”,后者则是生物遗传所决定的,“内在的”,具有生物学的更复杂本质,更多谜题尚待更多跨学科协作下的探索。

最后来看“语言显然是学会的”。大语言模型是数据驱动的模型,其基础是外部主义的,你可以说它的语言的确是学习来的,或者用乔姆斯基的话来说,是一种高科技“剽窃”。而人类语言则是“生成”的,它具有大语言模型所不具备的创造性、刺激贫乏性,甚至“有限性”。比如莫罗(Moro)的几项基于神经影像学的实验研究表明,人类语言官能既不能产出“不可能的结构”,也无法理解“不可能的结构”,而同时又可以创造出新的语法表达形式。我们团队最近也有两项实证研究,表明大语言模型不仅未展示出其创造性特点,而且在理解人类创新性语法表达形式时会表现出自相矛盾的情况。因此人类语言是“习得”的,这与机器的语言“学习”在机制和表现方面都有质的区别。

该文发表于《语言战略研究》2024年第6期,引用请以期刊版为准,转发请注明来源。

undefined