东方书评

书评

book review

指标陷阱,是否已对当今的商业、社会和生活构成威胁?
2020-07-29
医院为拼30天内的术后存活率,于是强行让病人存活到第31天?!

银行集团为拼业绩,竟演变成集体诈骗案——造假、窃取资料样样来?!

警方为降低犯罪率,可能沦为大案不抓、专查小案?!

大学教师牺牲教学研究时间,准备大量没人细看的评审资料?!

企业为满足季度营收目标,将资源转移到短期项目,搁置长期发展计划?!

——以上案例若令你感到荒谬,别笑,它们都是西方社会的进行时!



文 | [美] 杰瑞·穆勒

 

在有些人眼里,根据两位创作者大卫·西蒙(David Simon)和埃德·伯恩斯(Ed Burns)真实经历改编的HBO系列剧集《火线》(The Wire),是我们时代最伟大的文化档案之一。理由也很充分:剧集聚焦于美国城市巴尔的摩,深入挖掘了几项重大机制(警察、学校系统、市政政治和新闻媒体),对其运作和功能障碍问题进行了有如X光片般的深刻剖析。这一剧集吸引了多国观众,因为其主题“组织功能障碍”在整个西方社会都引起广泛的共鸣。




《火线》经常出现的一个主题,是指标的显著性:以“问责制”(accountability)为标志的“测量绩效”(measured performance)。警长痴迷于完成数字(比方说,解决了多少桩案件,逮捕了多少名毒贩子,犯罪率是多少),并通过各种手段来达到统计目标,哪怕牺牲效力也在所不惜。政客们也在索要能证明警方成功控制犯罪的数据。故此,警察部队想方设法地不让谋杀案出现在自己所在的辖区:一伙毒贩在废弃的房屋里处置尸体,负责凶杀案件的警司却阻挠手下发现此事,因为这会降低“清除率”,即罪案解决百分比的指标。剧集的大部分情节都围绕着富有奉献精神的警探展开,他们力争解决一桩某个大毒枭涉嫌参与的复杂犯罪案件。但由于这桩案件要花上几个月甚至几年才能坐实,警方高层不鼓励他们这么做,高层只希望警探们多逮捕低级毒贩子,积累漂亮的指标;可是不论逮捕多少低级毒贩子,贩毒集团都能立刻换上新人。市长办公室要求在年底之前让重大犯罪率下降5%,只可惜这个目标根本做不到,除非无视实际的犯罪,或是降低罪案严重性。在这些例子中,官员们都参与了“统计数据注水”(juking the stats),通过扭曲实际结果,或是将时间和精力从预防犯罪投入到生产率较低的工作上,以求改善指标。


另一集的剧情涉及一名前警察,他在一所中学教书,这所中学所在的社区,饱受贫困、滥用毒品和家庭破碎困扰。学校的学生成绩糟糕,而如果学生的考试成绩没有提高,学校就有关门大吉的风险。为此,在准备进行标准化英语阅读和写作考试之前的6星期,校长下达指示,要老师们将所有课堂时间都集中在备考上,完全忽略其他科目(这种策略,被委婉地称为“课程调准”)。“为了考试而教学”,就跟统计数据注水一样,是机构扭曲的表现,人们的努力偏离了设立机构的真正目的(教育),以求实现其生存赖以维系的度量目标。


绩效指标的这种扭曲效应,大西洋对岸的大不列颠也感同身受。在当地,另一部由曾经的真实从业者执笔的电视连续剧,捕捉到了相同的现象。前医院医师杰德·默丘里奥(Jed Mercurio)执笔编剧的《妇产科医生》(Bodies),发生在一座大都市医院的妇产科病房。第一集里,一位新来的高级外科医生对患有复杂并发症的患者进行手术,结果患者死亡。他的竞争对手随后向新医生提出了这样的建议:“优秀的外科医生会根据自己的优秀判断力,避开任何有可能会检验自己优秀能力的状况。”也就是说,他会避免疑难病例,以维持自己的成功率。这是经典的“抹奶油”策略,也就是避免有可能对人的测量绩效造成负面影响的风险病例。这种策略的代价是,手术失败风险较高的患者,因为得不到手术治疗,几乎肯定会死。



《妇产科医生》是一部医学剧集,但现实世界里充斥着它描绘的现象。举例来说,大量研究表明,如果外科医生是按成功率来接受评级或获得报酬的,一些医生就会拒绝对病情较复杂或病情严重的患者施术。排除更困难的病例(因为它们存在结果不佳的可能性),提高了外科医生的成功率,也就提高了他们的指标、名声和报酬。当然,这么做的代价是,牺牲了被拒做手术的患者的性命。但这些死亡并未体现在指标里。


我们会看到,操纵指标的现象发生在每一个领域:警务,基础、中等和高等教育,医疗,非营利组织,当然还有企业。采用绩效指标作为奖惩基础,会带来许多不可避免的问题,操纵指标只是其中之一。有些事物可以测量,有些事物值得测量。但能被测量的东西,不见得总是值得测量;得到测量的东西,跟我们真正想知道的东西,有可能毫无关系。测量的成本可能高于收益。被测量的东西,有可能让我们从真正在乎的事情上分散了精力。测量给我们带来的或许是扭曲的知识——看似可靠,实则具有欺骗性的知识。

 

我们生活在测量问责制的时代,奖励测量绩效的时代,我们相信,通过“透明度”来宣传这些指标是有益的。但是,用指标和透明度来落实问责制的做法具有欺骗性。问责制的本意应该是,要人对自己的行为负责。但通过一种语言上的花招,问责制的意思逐渐变成通过标准化测量来证明成功,就好像只有能被计算的东西才真正算数。另一个经常被视为理所当然的假设是,“问责制”要求让对绩效的衡量公开化,即“透明度”。


“指标固恋”(metric fixation)指的是,哪怕面对说明此举效果不佳的证据,仍然有着貌似不可抗拒的压力,要去衡量绩效,公开宣传绩效,并奖励绩效。


我们会看到,如果使用得当的话,测量是件好事。透明度也一样。但它们也可能产生扭曲、转移、取代、分心和阻挠的后果。一方面,我们注定要生活在测量的时代,但另一方面,这个时代的测量,很多是错误测量、过度测量、误导性测量和适得其反的测量。这本书不是要揭示测量有多么邪恶,而是想指出,试图用标准化的绩效测量去代替基于经验的个人判断力,会造成哪些非计划性的负面后果。问题不在于测量,而是过度测量和不当测量——指标没问题,指标固恋则大有问题。


你一旦觉察到指标固恋,恰如其他恍然大悟的时候一样,你很可能会发现它无处不在——绝不限于电视剧集里。


指标固恋的口号响彻我们身边。谷歌的Ngram(它能即时搜索成千上万的扫描版书籍和其他出版物)为我们文化和社会所发生的变化,提供了一幅粗略但极为生动的画像。在页面上按年份设置参数,键入术语或短语,就会弹出一幅图表,显示相应的词汇从1800年到现在的出现率。输入“问责制”,你将看到一条线从1965年左右开始逐渐上扬,1985年后提升幅度不断增加。“指标”一词也一样,在1985年前后急剧增加。“基准”和“绩效指标”也都遵循相同的模式。


虽然问责指标确有潜力成为宝贵的工具,但其优点被夸大了,其成本则被低估了。《指标陷阱》这本书提供病因分析,并加以诊断,但是也会给予一份“预后”(prognosis)建议——如何避免指标固恋,以及如何减轻它所造成的痛苦。

 

指标固恋的最突出特征是,想要用标准化测量取代基于经验做出的判断。据说,判断是个人的、主观的、自利的。相反,指标理应提供确定而客观的信息。这里的策略是,向实现了最高指标,或者达到基准或目标的人提供奖励,惩罚落后者,从而改善机构效率。建立在这些假设上的政策,已被推进了几十年,从Ngram图表上不断上扬的曲线可以看出,它们假设的真理也在往前推进。


诚然,很多情况下,基于标准化测量所做出的决策,的确优于基于个人经验和专业知识所做出的判断。在个人从业者的经验过于有限,因而无法形成对于效力的直觉和可靠权衡的时候,建立在大数据基础上的决定是有益的。举例来说,当医生碰到罕见疾病的症状,最好建议她依靠由大量病例汇总的规范化诊断标准。事实证明,在航空公司和医疗等多变的领域,核对清单(怎样应对常规状况的标准化程序)很有价值。而且,正如《点球成金》(Moneyball)一书中所述,统计分析有时会发现一些可被清楚测量但遭到忽视的特征,它们本来有着重大的意义,但建立在经验积累基础上的直觉却对它们认识不足。



做得明智的话,测量从前未被测量的东西,可以带来真正的收益。测量绩效(同时避免落入陷阱)的尝试,在本质上是可取的。如果实际测量到的东西,是我们有意要测量的东西的合理的替代指标,那么,测量有助于帮助从业者(个人或组织)评估自身的绩效。但倘若此类测量成了奖惩的标准(即指标成了绩效薪酬或评价的基础),问题就出现了。


关于测量绩效的方案有着极具欺骗性的吸引力,因为它们往往通过辨识出最令人震惊的错误或疏漏,对自己加以“证明”,接着便应用于所有案例。适合用来发现真实不当行为的工具,变成了测量一切绩效的工具。测量绩效带来的初步结果,可能会令绩效不佳者加以改善,或退出市场。但许多时候,标准化测量的大范围普及,可能会削弱效用,甚至有违初衷——从明智的解决方案,变成指标狂热。最重要的是,一心想要测量不可测量的东西,量化不可量化的东西,测量就可能适得其反。


权力、金钱和地位的切实利益在受到威胁。指标固恋使得资源从一线生产者转移到管理者、行政人员,以及那些收集并操纵数据的人手里。



当管理者以指标作为控制专业人士的工具时,指标往往会在管理者和专业人士(医生、护士、警察、教师、教授等等)之间制造一种紧张态势,前者试图测量并奖励绩效,后者着眼于道德。专业精神的基础是:通过长期的教育和训练过程,掌握专业的知识体系;对自己所属专业群体的认同,对同事的责任感;对内在奖励的高度重视;对客户利益的承诺高于成本考量。



这种紧张态势有时是必要也可取的,因为专业精神往往忽视成本和机会成本的问题。也就是说,专业人员大多只看得到自己提供更多服务带来的优势,却难得注意到资源的限制,看不出还有什么别的替代方案。专业人士不喜欢考虑成本。关注指标的人正相反。如果两群人互相合作,结果也许令双方都更满意。但要是他们互相挖坑,就会导致矛盾冲突,士气低落。


有时候,从合理地应用指标到疯狂地应用指标,背后有利益在作祟;但另一个原因同样重要,那就是不加批判地采用“指标意识形态”。与每一种文化一样,指标问责制文化拥有一套不容置疑的独特神圣术语,及其特征性的盲点。不过,它在今天所占据的优势地位太显赫了,使得人们往往无视它的缺陷。

 

本文摘自《指标陷阱》

相关图书




今日各式各样的组织都深信,成功的必经之路就是量化人的绩效,公布结果,并根据数字来分配酬劳。但是,当我们饱含热情地投入具有科学严谨性的评估过程,我们却由测量绩效,变成了痴迷于测量本身。这就带来了“指标的暴政”,它始终威胁着人类生活的品质和最重要机构的表现。


本书简明易懂,列举了大量来自教育、医疗、商业和金融、政府、警察和军队、慈善事业及对外援助领域的事例,解释了为何看似势不可挡的量化绩效的压力,会造成扭曲和分心效应,不管是经由鼓励“对数字动手脚”还是“为了考试而教学”。


在这本来得甚为及时的力作当中,杰瑞·穆勒揭示了我们对指标的沉迷正在造成什么样的损害——并探讨了我们应当如何加以补救。


本文发表于《经济观察报书评》https://mp.weixin.qq.com/s/IxOUThVm7MNJx7KIVK2vQQ