中文 / English
首页 >> 学术交流 >>  学术文章汇总学术文章汇总
杜宁华:经济学实验的内部有效性和外部有效性 - 与朱富强先生商榷

文章来源:“中国经济学教育科研网” 原文发表于《学术月刊》(2017年第8期)

经济学实验的内部有效性和外部有效性


——与朱富强先生商榷


【摘要】朱富强近期对应用于市场设计的经济学实验提出了质疑和批评,认为双盲设计等实验设计手段的目的是人为地使实验结果更接近理论预测,并指出:“……使得实验的博弈情境尽可能地接近现实环境,这是实验经济学和行为经济学的基本要求和发展方向。”上述观点是对实验设计方法的误读。实验的价值恰恰就在于它有别于现实:与现实环境相比,实验环境的优势是对无关因素的“控制”, 从而保证研究结论的内部有效性。内部有效性得到验证之后,再通过其他实证手段逐步验证市场机制的外部有效性。从理论,到实验室实验,再到实地实验,最后进行社会推广并通过“事前事后分析”等观察性实证方法最终评价市场设计的效果,是市场设计的理想实践路径。


【关键词】经济实验 内部有效性 外部有效性 


一、引言 

在市场机制设计的经济实践中,针对体制转轨的需求,经济实验对市场机制的验证具有不可替代的优势,可用于检验体制、机制或政策变化的影响和社会风险的控制。经过早期学者的不断探索、以及2002年诺贝尔经济学奖得主 Vernon Smith 对经济实验的方法和工具所进行的系统性归纳,当代的实验经济学作为重 要的实证手段在市场机制设计过程中日益受到关注。当外部环境迅速变化、新技术大量涌现时,改革一方面成为必然的选择,但另一方面人们又不得不谨慎考虑各种政策建议和新提案的战略风险和社会成本。因此,能否寻找出一种办法,针对新的体制提案可能出现的问题事前进行相对完整、周密的考察,自然就成 了体制改革进程中的难点和关键。中国在改革开放中采用了“特区政策”“试点先行”“典型引路”等各种措施。经济实验与这些措施在力求降低改革的风险和成本这一指导思想上是完全一致的。但经济实验与“摸着石头过河”、通过原型试点积累经验的各种做法在方法论上又有着重大的区别。与原型方法相比,首先,经济实验所回答的研究问题更单一,每个经济实验只考察一种政策的效果、一种机制的特征,有的放矢地进行实验。其次,经济实验所采用的技术工具更规范。在现实生活的经济实践中有多种因素发挥作用的情形下,经济实验方法要求而且能够将与研究人员的问题无关的因素控制起来,集中考察某一特定因素对具体的经济现象的作用。最后,与原型方法相比,经济实验的成本更低廉,能够避免机制设计失误所造成的社会损失。


朱富强 2016 年 6 月发表的《博弈论专家的行为实验何以印证主流经济学——实验条件的控制与实验结 果的差异性》一文对应用于市场设计的经济学实验提出了质疑和批评。该文着重讨论了实验中常见的“双盲实验设计”,并指出:“博弈论专家之所以严格控制实验条件并热衷于双盲试验,则主要与他们的知识结构和研究对象有关,他们偏好于检测受试者在给定博弈情境下的行为逻辑,甚至对干扰因素对实验结果的影响感到不安”;最后得出论断:……使得实验的博弈情境尽可能地接近现实环境,这是实验经济学和行为经济学的基本要求和发展方向”。


“实验经济学的基本要求是使实验环境尽可能接近现实”这一论断,其本质是从方法论上否定了实验经济学:任何一种实验环境,都不可能比现实环境本身更现实;如果越接近现实的实验越理想,那么最理想的做法就是从现实环境中直接观察数据,而不是通过实验产生数据。但实验经济学这一学科的产生,正是由于经济学研究中出现了现实数据难以回答的科学问题。与现实环境相比,实验环境的优势是对无关因素的“控制”,从而保证研究结论的内部有效性。实验的价值恰恰就在于它有别于现实。朱富强一文认为,双 盲设计等实验设计手段的目的是人为地使实验结果更接近理论预测,从而迎合所谓“主流经济学”,这是对实验设计方法的误读。而朱富强一文中将经济学的研究内容强分为“主流经济学”和非主流经济学,将实验经济学家区分为迎合“主流经济学”的学者和挑战“主流经济学”的学者,这都是贴标签的做法,已超出了就事论事、针对具体研究工作的学术讨论范畴。


由于朱富强一文对市场设计类的实验提出质疑,首先本文需要澄清什么是市场设计、从方法论的意义 上总结实验经济学在市场设计中所发挥的作用。其次,针对朱富强一文的具体批评意见,本文做出回应。因此,本文按照如下结构进行组织:在第二部分里描述市场设计的基本问题、讨论经济实验在市场设计中 的作用,并简单小结本世纪实验市场设计的新动向;第三部分回应朱富强一文对“双盲设计”等实验设计方法的批评,通过讨论实验设计的内部有效性与外部有效性,指出“双盲设计”等方法是为了通过恰当的控制实现内部有效性,而非为了迎合“主流经济学”;第四部分回应朱富强一文对“迎合主流经济学的实验经济学家”的批评、反对将学者贴标签的做法;最后第五部分做出总结。


二、实验经济学:市场设计的天然工具 


20 世纪 70 年代,Allan Gibbard、Hurwicz及 Mark Satterthwaite等人在市场设计领域做出了开创性的贡 献。而 Vernon Smith在实验经济学方法论上的贡献,为市场机制设计的理论检验开拓了路径。下面从市场设计问题的基本描述、经济实验在市场设计过程中的作用,以及21 世纪市场设计研究的新动向等三个方面梳理相关文献的发展脉络。


(一)市场设计问题的基本描述


经济学所回答的基本问题,在于如何运用有限的资源尽可能去满足公众的需要。放在微型经济系统下,这个问题就成了在给定市场参与者基本特征(即经济环境)的条件下,应如何达成分配结果,从而最大化市场参与者的社会福利。上面提到的问题实际上应当被分解为两个问题。问题之一是,究竟什么样的资源 配置方案才是“最优”配置方案?或者说,我们应当如何度量市场参与者的福利水平高低?问题之二是, 如果存在某个“最优”的配置方案,究竟如何才能实施这个方案?其中寻找衡量分配方案“优劣”的社会福利指标是福利经济学的基本任务;而市场设计所研究的是在给定某个预设的配置方案的基础上,如何进行市场的设计,以寻找一条具体的途径来执行这个方案。


在现实生活中,有关经济环境的信息往往分散掌握在数量庞大的独立经济个体手中,社会规划者只能 根据经济活动参与者所报的信息来判断当前的经济环境,而经济个体由于逐利的原因都有可能谎报自己所 掌握的信息。因此,社会规划者往往无法直接实施“最优”的配置方案。可行的办法,是通过一定的市场机 制实现期望的配置方案。市场机制通过激励手段引导市场参与者的决策(即市场参与者在一定经济环境下对市场信号的选择),在此基础上通过市场规则实现配置方案。


市场设计的基本问题是,应如何选择市场机制,从而有效地激励、引导市场参与者,以实现目标配置方案。


如图 1 所示,在经济系统中,市场参与者在市场机制(即市场上的约定与规则)的约束和激励下所选择的市场信号依赖于其经济环境;所有市场参与者所发送的信号共同构成了市场约定,该约定是市场语言中的一个元素。最终,在市场参与者约定的基础上由配置法则决定各种商品的归属,即交易结果。市场机制决定了非货币商品和货币的最终配置。经济系统下的市场参与者不直接选择配置方案;市场参与者发送信号、达成市场约定,通过市场机制来实现配置方案。


(二)经济实验在市场设计过程中的作用


理论上能够实现预期配置方案的市场机制,在实践中能否取得成功?经济实验是市场设计最直接、最强有力的工具。经济实验的本质是对经济系统进行控制,对经济系统中市场参与者(即实验参加者)的行为进行观察,从而回答市场设计的基本问题。


在实验室里,研究人员营造出特殊的实验市场环境,征召实验参加者进入实验室;在实验开始前,实验参加者将阅读实验说明,在实验说明中研究人员对实验市场的环境和规则进行详尽的描述;按照实验说明中所描述的规则进行真实的交易并获得货币回报;最后,研究人员通过分析实验所产生的交易数据回答自己的研究问题。实验室里的市场也完全以激励为导向,是真实的市场。但实验室里的市场又是特殊的市场,因为其环境和规则是针对特定的研究问题设计的,有别于现实中的市场。



如图 2 所示,通过物质激励,研究人员对实验室内的经济环境、市场机制(包括市场语言和市场规则) 进行控制;在实验中,研究人员对实验参加者的决策、实验的交易结果进行观察;通过比照实验的交易结 果与预期的分配方案,研究人员对市场机制的有效性做出评价。在市场设计实验中,研究人员只比较被考 察的不同市场机制,而其他与科学问题无关的因素都被研究人员控制在基本相同的水平,因此,实验数据 能解决现实生活市场中数据所产生的“内部有效性缺失”的问题:现实生活中实施市场机制的主体往往基于 其内在特征进行制度安排,从而造成研究人员观察不到市场机制的真实效果。举一个例子,假若现实生活中“荷式拍卖”往往吸引低收入群体参加,而“英式拍卖”更吸引高收入群体,在研究人员无法得知竞拍者收入的情况下,简单比较“荷式拍卖”与“英式拍卖”的成交价有可能错误地把收入差别造成的影响归结于市场机制差别所造成的影响。有关“内部有效性”的详细讨论将在本文第三部分进行介绍。


(三) 21 世纪实验市场设计研究的新动向


进入 21 世纪,传统的市场设计开始大规模地进入应用范畴,比如,西方许多国家的中央银行经常采 用拍卖的方式销售政府债券,内务部也定期拍卖石油开采权。以美国为例,经济学家所设计的各种拍卖机 制在得到实验验证之后,被广泛应用于通信频谱拍卖、公交线路运营权拍卖、汽车牌照拍卖以及网络拍卖 的实践中,取得了前所未有的效益,为美国财政部带来了巨量收入,欧洲各国也相继采用类似的拍卖机制。 在中国,也开始有学者运用实验方法研究拍卖机制的现实应用。比如,Cadsby、杜宁华、王汝渠、张军的实验研究表明,如果在共有价值拍卖中允许得到赝品的中标者退货,那么拍卖的预期成交价将会提高,而拍卖标的物的商家将从拍卖中得到更高的预期收入。


匹配机制设计,是市场设计的一个新动向,其成果被广泛应用于学生择校系统及人体器官捐献分配系统等。在许多匹配问题上,价格机制通常并不起主导作用,甚至在许多情况下没有转移支付。比如,在大 学入学问题中,并不是谁出价高谁就可以得到入学名额,与此同时大学也不是通过学费的高低来调节需求(学生申请)。在某些职业的就业匹配中,用人单位并不是完全依靠工资水平来挑选员工,单位寻找的是具有某种职业技能而不是工资要价低的员工。在器官移植市场中,绝大多数国家规定不能买卖器官,移植器官的配置需要通过非价格机制等等。在非价格机制运作中,匹配成为一种重要的机制和工具。因此,人们需要研究,在非价格机制下,参与人之间如何通过匹配来实现资源有效的配置,以及参与人之间互动的激 励性问题。


匹配机制设计有着非常广泛的应用,很多经济学家用经济学实验检验匹配机制的有效性,并应用到具 体的市场实践中。比如,获得诺贝尔经济学奖的实验经济学家 Alvin Roth 参与了美国国家住院医生匹配项目 (National Resident Matching Program)的设计,Alvin Roth 和合作者参与了波士顿公立学校入学匹配设计及新英格兰肾脏交换机制的设计等等。这些项目的成功设计充分展现了实验市场设计对于解决现实问题的巨大 潜力。在中国,有一批青年学者通过经济学实验研究中国高校的入学匹配问题。比如,连纬虹、郑捷、钟笑寒在多种择校机制下对比高考前填志愿和考后填志愿对录取公正性的影响,丁婷婷运用实验研究信息传播对择校机制的影响(与 Andrew Schotter 合作,即将见刊),陈岩、江明等人运用实验和其他实证方法研究中国高考招生制度改革,等等。


21世纪市场设计的另一个新动向是研究领域呈现跨学科发展,心理学、生物学等学科的新成果开 始进入微观机制设计的研究视野。如行为合约设计是心理学与市场机制设计相结合而出现的新领域。行为经济学(Behavioral Economics)是将心理学的研究成果引入经济分析的经济学新分支,而实验经济学(Experimental Economics)是行为经济学模型的主要实证手段。行为经济学的研究经过了三代学者的发展。20 世纪 80—90 年代,第一代行为经济学家指出了传统经济理论无法解释的异常现象(如,禀赋效应、阿莱 悖论、经济衰退中的工资刚性等);而 20 世纪 90 年代至 21 世纪初,第二代行为经济学家针对上述心理现象建立一般性的理论模型,如,level-k 学习模型、以负罪厌恶为基础的守约模型等;而最近几年第三代行为经济学的研究人员开始将第二代的研究成果运用到应用领域中去,而行为合约设计就是其中的热点。比如,劳动力市场的合约设计将在本文第四部分详细讨论。


三、对朱富强一文的回应一:“双盲设计”等实验设计方法是为了通过恰当的控制实现内部有效性,而非为了迎合“主流经济学”


(一)科学研究中的内部有效性和外部有效性

任何一种科学研究,都面临着内部有效性和外部有效性两方面的挑战。内部有效性(Internal Validity)是指,研究人员分析某一种特定因素所造成的效果时,一定不能把其他原因造成的效果错误地归结到被研究的对象上。比如,当我们分析一种药物对心血管疾病的疗效时,如果病情较重的人服用了药物而病情较轻的人未服药,那么病情的轻重程度会对分析结论造成干扰;如果参加某种劳动技能培训的人的智力水平 高于未参加培训的人的智力水平,那么研究人员所观察到的“技能培训的效果”有可能来自智力水平的差别。而外部有效性(External Validity)是指,从有限样本中得出的研究结论,究竟在多大程度上能推广到总体中去。比如,某一种药在美国的临床实践中取得了效果,那么这种药能否在中国的临床中取得效果?如果理论经济学家所设计出来的市场机制通过经济实验取得了成功,那么这一机制在现实生活中的效果又会 如何?


首先需要指出的是,确保内部有效性是所有研究工作的起点。误读了经济现象背后的真实原因,无论其应用环境是否贴近现实,都必然会误导政策制定与制度安排。在内部有效性得到保证的基础上,研究人 员再继续探讨研究结论的外部有效性,即研究结论的适用范围(比如,无论经济学理论研究还是经济学实 证研究,都有针对经济学理论模型或实证数据分析的 Robustness Check,即适用性检验)。其次需要指出的 是,没有任何一种经济学研究方法能在内部有效性和外部有效性两方面同时做到完美,理论(Theories)、实 验(Experiments)和观察性实证方法(Observational Empirical Methods)各有所长。经济学实验在经济学的实证研究方法中是内部有效性最强的研究手段,其代价是外部有效性受到一定限制。


(二)经济实验:通过“控制”实现内部有效性


经济实验的本质,就是通过研究人员对实验的“控制”实现内部有效性。经济实验中的控制手段包括:研究人员将来自同一群体(如某高校的本科生)的实验参加者随机分配到不同的实验条件中去、以消除不同实验条件下的参加者的系统性差异,从而不同实验条件下实验结果的差异只能归结于不同实验条件下实验设置的差别,而不能归结于不同实验条件下参加者的差异;在同一实验设置下参加者阅读相同的实验说 明,以确保参加者接受相同的信息;实验说明中通常采用中性词语,以避免与研究问题无关的社会偏好对 实验结果造成干扰……等。朱富强一文中所讨论的“双盲设计”(即实验参加者之间相互匿名,且参加者 对研究人员也匿名),也是一种常见的实验控制手段。“双盲设计”能降低研究人员的观察效应、社会距离等因素对实验结果的干扰。


第一点需要澄清的是,研究人员通过实验设计对实验进行控制的目的,是为了实现内部有效性,而不 是像朱富强一文所提到的为了迎合“主流经济学”、确保主流经济理论中的结论被实验验证。以 Hoffman, McCabe,Shachat,Smith的研究工作为例(这一工作也在朱富强一文中提到了):一名实验参加者是分配 者,另一名实验参加者是接受者;由分配者将 10 美元在分配者与接受者之间分配,而接受者只能接受分配者的提案、没有讨价还价的余地。在传统经济学的自利前提下,理论预测分配者会将全部 10 美元归为己有。但实验结果表明,即便是在双盲设计下,作为分配者的参加者通常会留 1 到 2 美元给接受者。这个实验的证据表明利他偏好(Other-Regarding Preference)确实会在经济活动中发挥作用,按照朱富强一文的分类方法,这一实验应该是属于“反主流”的。恰恰是“双盲设计”等严格的实验控制手段,使得 Hoffman 等人的研究结论更加稳健:即便是在最容易出现自利行为的双盲设计下,研究人员都观察到了利他行为,从而我们很难把这种利他行为归结于研究人员的压力或诱导等其他原因。


第二点需要澄清的是,实验控制从未将实验参加者的社会性抽象掉,“最大限度地将受试者还原为孤立的原子个体,甚至是类似机器般的成本——收益反应者”。经济学理论的出发点,包括关于经济环境的 结构性假设和关于经济活动参与主体的行为假设两类。经济实验通过控制,能在实验环境中最大程度再现 经济学理论中的结构性假设(如初始禀赋的分布、成本的结构,等等),但实验设计中并不对实验参加者的 行为进行假设(参加者是否能够充分有效处理全部信息、是否逆向归纳,等等)。因此,如果实验表明理论失效,能够相对容易地得知理论失效的原因(比如,可以进一步通过实验验证究竟是哪一条行为假设脱离实际情况)。而通过现实生活中的数据检验理论,其难点在于现实生活与经济学理论中的结构性假设存在距离,从而很难确定理论失效的具体原因。


(三)实地实验:对实验结论外部有效性的回应


近年来,学界对经济学实验的批评集中在实验结论的外部有效性上。比如,经济学的实验室实验通常征召本科生作为实验参加者,支付相对较低的报酬,而实验在较短的时间内完成。那么如果参加者群体发生变化(如有丰富经验的从业者)、报酬规模发生变化、实验环境是现实生活中的市场,实验结论是否也会 发生变化?


21 世纪日益受到重视的实地实验(Field Experiment)是对这类质疑的有力回应。实地实验是介于实验室实验和完全基于现实市场所自然产生的数据的观察性实证方法之间的一种实证手段。实地实验与实验室实验相同的是,研究人员将实验参与者随机分配到不同实验条件中去,从而能有效避免样本选择或内生性造成的系统性偏差。但实地实验在现实生活中的市场里进行,从而研究人员对实验的控制不如实验室实验完 美(如研究人员很难在现实生活中控制价值、成本、信息等因素)。实证方法中,从内部有效性来说,实验室实验最强,实地实验次之,观察性实证方法最弱;从外部有效性来说,顺序正好颠倒:观察性实证方法 最强,实地实验次之,实验室实验最弱。


四、对朱富强一文的回应二:强分“主流经济学”与非主流经济学 以及给不同的学者贴标签的做法无法概括实验经济学的研究现状


建立在经济活动参与者逐利基础上的经济学理论,被朱富强一文划归“主流经济学”;而对经济学传统行为假设提出挑战的研究工作划归非主流。自利、理性等传统行为假设构建了经济学理论的参照系和基准 点,建立参照系能帮助我们测度偏离传统行为假设带来的后果,但这并不意味着只有建立在传统行为假设基础上的经济学理论“主流”,也不意味着经济学研究不重视社会性因素对经济活动的影响。


朱富强一文还提到以 Vernon Smith 为代表的实验经济学家与 Dan Kahneman 为代表的行为经济学家之间 的区别。“前一类实验者往往刻意地消除那些不同于经济人假设的社会因素以及由此带来的各种效应,其实 验结论也很大程度上维护了现代主流经济学的理性思维和分析路线 ; 相反,后一类实验者更倾向于关注不同 社会性因素对实验结果产生的影响并分析其机理,从而对流行的理性选择理论提出了诸多批判”。这一论断既不符合实验经济学的研究现状,也不符合实验经济学当下的发展趋势。


从实验经济学的研究现状看,当下的普遍情况是研究工作从具体的科学问题出发、实验设计是否得以 回答其科学问题是衡量该实验学术价值的基本标准,而不是以能否迎合“主流”为标准。以 Vernon Smith 为 例,他的多种市场设计实验都支持了理论预测,这并不是人为刻意造成的结果,而是科学研究的客观发现。 Vernon Smith 及其合作者所设计的“智能市场”,不仅在实验室内取得了成功,在现实生活的水利资源、电 力资源配置中都发挥了重要作用,就是市场设计实验的科学性的强有力佐证。另一方面,Vernon Smith 的 研究工作既包括市场设计实验,也包括探索传统行为假设适用性的实验,如朱富强一文所提到的 Hoffman, McCabe,Shachat,Smith。恰恰与朱富强一文的论断相反,市场设计实验通常不采用双盲设计等控制手段, 反而是挑战传统行为假设的实验往往采用双盲设计等淡化其他社会因素的方法,以保证实验结论的稳健性。


从实验经济学的发展趋势看,在 20 世纪 90 年代之前,行为经济学家关注如何识别心理约束在市场活动中的作用,而传统实验经济学家关注如何运用实验手段实现市场设计(成功案例包括拍卖机制设计、择校机制设计、器官移植的匹配等),两者看似并无交集。但进入21世纪后,如何将行为经济学中已得到验 证的心理约束机制引入市场设计,从而提高交易的信任度和诚信度、提高市场交易效率并实现潜在市场剩 余,已经成为当下研究的热点。比如,Charness 和 Dufwenberg 发现,虽然口头承诺在很多情况下不具有法律约束力,但“违背承诺”这一事件本身会给承诺人带来心理负担,因此口头承诺也会约束经济活动参与者的行动。Charness、杜宁华、杨春雷和姚澜将这一行为经济学上的发现运用到劳动合约设计中去 , 他们的实验表明,在雇主与雇员的合约中,雇员对绩效的口头承诺对雇员的实际努力水平具有约束力,而雇主对雇员 绩效的口头期待对雇员的努力水平不具约束力。最优合约设计的历史文献表明,合约的剩余索取权应交付 给创造价值的一方,以实现社会效率;而 Charness,杜宁华,杨春雷和姚澜的贡献在于,口头承诺等非物质的心理约束机制同样要作用于合约中创造价值的一方,才能实现社会剩余。行为市场设计在中国的现实应用不仅有劳动合约设计,还包括电子商务,小微信贷等诸多方面。


五、小结


我们不能混淆科学研究的内部有效性与外部有效性。不能因为实验室实验中所构造的环境与现实生活 有很大区别而否认其价值,不能因为经济实验在外部有效性上受到的限制而否认它在内部有效性上发挥的作用。不同的研究范式各有其价值:以市场设计为例,没有理论指导的市场设计是盲目的实践;而实验对 新机制内部有效性的检验,不仅成本低廉,还能有效避免机制设计失误所造成的社会损失;内部有效性得 到验证之后,再通过其他实证手段逐步验证新机制的外部有效性。市场设计最理想的实践路径是从理论, 到实验室实验,再到实地实验,最后进行社会推广并通过“事前事后分析”(Pre-Post Evaluation)等观察性 实证方法最终评价市场设计的效果。




杜宁华上海财经大学经济学院常任副教授,博士生导师。主要研究领域为:实验经济学、产业组织学、应用微观经济学、应用计量经济学。