新作速递丨司富珍：辛顿对乔姆斯基语言理论批评的三个错误-北京语言大学-语言学系

当前位置：首页 > 新闻公告 > 正文

新作速递丨司富珍：辛顿对乔姆斯基语言理论批评的三个错误

【发布日期：2024-11-29 】

以下文章来源于语言战略研究，作者司富珍

“辛顿·乔姆斯基·语言学发展”

多人谈

［编者按］2024年4月8日，有“人工智能教父”之称的杰弗里·辛顿（Geoffrey E. Hinton）在都柏林大学接受尤利西斯奖章的获奖感言里，对乔姆斯基提出了毫不客气的批评：“语言学家被一个名叫乔姆斯基的人误导了好几代……他有一个偏执古怪的理论，即语言不是学会的。他成功地说服很多人相信这一点。但这一看就知道纯粹是胡言乱语。语言显然是学会的。大型神经网络学习语言，不需要任何先天结构，只是从随机权重和大量数据开始。乔姆斯基却仍然在说，但这并非真正的语言，这不算数，这是不对的。许多统计学家和认知科学家也说，永远不可能在这样一个大网络里学习语言。乔姆斯基从来没有提出任何一种有关语义的理论。他的理论全是关于句法的。”这篇发言引起了中国语言学界的关注，陈国华教授把它译为中文，以《杰弗里·辛顿接受尤利西斯奖章时发表的获奖感言》为题，发表在《当代语言学》2024年第4期上。10月8日，霍普菲尔德（John J. Hopfield）和辛顿以“通过人工神经网络实现机器学习的基础性发现和发明”获得诺贝尔物理学奖后，关于大语言模型和语言学发展、辛顿和乔姆斯基的话题再度爆火。

一位人工智能大家，获得了诺贝尔物理学奖；他批评了一位美国的著名语言学家，却引发了中国语言学者的热烈讨论，反思中国语言学的问题。这形成了一个奇妙的蝴蝶效应。我刊随即与《当代语言学》编辑部筹划，联合举办“大语言模型与语言学发展座谈会”。10月17日，座谈会在商务印书馆召开，线上线下学者各陈己见。我刊特就此设多人谈栏目与学界共享。

本期嘉宾

undefined

司富珍

北京语言大学语言学系/乔姆斯基研究所

辛顿对乔姆斯基语言理论批评的三个错误

辛顿的尤利西斯奖获奖感言中有3条与乔姆斯基语言理论相关的关键性批评意见：（1）“语言显然是学会的”；（2）“大型神经网络学习语言，不需要任何先天结构，只是从随机权重和大量数据中开始学习”；（3）“乔姆斯基从来没有提出任何一种有关语义的理论，他的理论都是关于句法的”。同时，他声称他所设计的语言模型“实际上是人类语言的工作模型”。众多研究表明，这3条批评性意见代表了他本人以及一批观点相近的“倒乔”派对于乔姆斯基理论的3个错误性理解。

我们倒着来看，先说第三条意见：“乔姆斯基从来没有提出任何一种关于语义的理论，他的理论都是关于句法的”。只要认真阅读乔姆斯基的原著，就知道这是明显的错读错解。乔姆斯基在最早期的著作《句法结构》中就曾强调：“形式特征和语义特征之间存在对应关系，这一事实不能忽视。这种对应关系应该用一种更为一般的语言理论进行研究，该理论要包括语言形式理论和语言使用理论作为其组成部分……我们发现，这两个领域之间显然存在颇具普遍意义的一些关系……我们应该乐意看到语法将语言的句法框架独立表现出来，让其能够支持语义描写。”1972年，乔姆斯基又出版了《生成语法中的语义学研究》。语义学家海姆（Heim）和克拉策（Kratzer）也撰有《生成语法中的语义学》，从逻辑语义角度为乔姆斯基的语义理论提供了系统的形式化表达。乔姆斯基不同时期的文献，如著作《句法理论的若干问题》《管辖和约束演讲集》和《最简方案》，论文《论名物化》（Remarks on norminalization）等，也都有对句法与语义关系的系统性讨论。只不过，乔姆斯基认为“不能把是否合语法的概念等同于是否有意义”，换言之，句法相对于语义是独立的系统。

再看第二点：“大型神经网络学习语言，不需要任何先天结构，只是从随机权重和大量数据中开始学习”。这一结论可能反映了大语言模型工作的大部分事实，即随机权重和海量数据在机器学习中的重要性，但它也恰恰反映出大语言模型与人类语言工作机制的不同：人类儿童可以在刺激贫乏的情况下习得母语，并且不管每个人接触的语言环境差异多大，数据量差异有多大，其句法构造方面的语言能力发展进程及语法完备程度却几无差异，这就是所谓语言习得的柏拉图问题。它与机器基于海量数据存储与训练的“豪华刺激”机制完全不同。

况且，所谓不需要任何“先天结构”的说法也在一定程度上是个谎言。我们用辛顿自己使得过的方法对ChatGPT 4.o进行了提问，结果表明，语言学家在大语言模型的数据库中做了大量与语法、语义和语用相关的标注和校正工作。说不需要“先天结构”，只是说未“显性”使用乔姆斯基的形式化规则：尽管“大语言模型绕过了乔姆斯基所倡导的语言规则的明确形式化，但对语法、意义和语境等语言特征进行建模的需求却深深植根于语言理论中”。语言学工作者间接参与给予的语法、语义知识可以与先天结构类比。尽管它与人类语言的天赋性还有本质区别，前者是“人工的”“外在的”，后者则是生物遗传所决定的，“内在的”，具有生物学的更复杂本质，更多谜题尚待更多跨学科协作下的探索。

最后来看“语言显然是学会的”。大语言模型是数据驱动的模型，其基础是外部主义的，你可以说它的语言的确是学习来的，或者用乔姆斯基的话来说，是一种高科技“剽窃”。而人类语言则是“生成”的，它具有大语言模型所不具备的创造性、刺激贫乏性，甚至“有限性”。比如莫罗（Moro）的几项基于神经影像学的实验研究表明，人类语言官能既不能产出“不可能的结构”，也无法理解“不可能的结构”，而同时又可以创造出新的语法表达形式。我们团队最近也有两项实证研究，表明大语言模型不仅未展示出其创造性特点，而且在理解人类创新性语法表达形式时会表现出自相矛盾的情况。因此人类语言是“习得”的，这与机器的语言“学习”在机制和表现方面都有质的区别。

该文发表于《语言战略研究》2024年第6期，引用请以期刊版为准，转发请注明来源。

undefined

下一条：论著推介 | 卢德平、陈纪宁：“后现代”城市空间语言——语言景观透视