量化历史与新史学(下)
三、量化历史作为新史学的价值
量化历史是新史学的重要组成部分,陈志武在之前的研究中已经从新知识革命的角度介绍了量化历史对于知识创新的价值,通过不同案例说明量化历史不仅仅是验证已有的常识,也带来新知识、新认知。(23)本文所引用的案例也表明量化方法在知识创造、解决争议、纠正错误认识等方面的优势。接下来,笔者侧重从历史学研究面临的挑战出发,介绍量化历史作为新史学对于历史学研究的价值。
基于前文提出的量化历史研究步骤和方法,我们认为量化方法对历史学的价值主要体现在如下方面。
(一)应对历史大数据的挑战,帮助分析复杂的历史
历史学建立在史料的基础上,随着大规模史料的出版、公开、数据库化,研究者已经注意到,历史大数据时代和“数字人文时代已经到来”。(24)
历史大数据包含两层含义。第一是接近全样本,也就是可以掌握研究对象的总体。比如关于清代官员的信息,由于有缙绅录和地方志,清代中后期绝大多数官员的信息都能够得到还原。根据前述样本与总体关系,随着历史学家掌握总体,统计推断带来的挑战会下降,但因果推断的挑战依然存在,需要应用最新的量化方法来应对。
第二是数据量巨大,这又表现在两个方面,首先是由于引入定性变量和代理变量,可以将海量的历史资料转为数据。比如,仅清代刑科题本档案就有近65万本。不仅仅是清代,即使是很早以前的历史,也蕴藏着海量的数据。以考古墓葬为例,仅仅是香港大学“中国考古数据库”所收录的先秦已经发掘的遗址数量,就接近6万个。
其次是数据之间的关联。数据库的潜能不仅仅是在每一个单独的数据库本身,更为重要的是不同数据库之间的关联和匹配。举例来说,可以将缙绅录中近500万个官员的记录与《清实录》、清代档案中的官员行为记录匹配起来。缙绅录数据本身就是历史大数据,如果与官员的行为记录匹配起来,其数据量将达到数亿级别。在相关数据可得的情况下,依靠计算机,这样的匹配可以在很短的时间内就完成。当越来越多的信息匹配起来之后,我们有机会建立起关于复杂历史的更为真实的图景。
历史大数据出现之后,使用定性方法显然难以将这么多的数据做一个整体分析,从中得出经验性的认识,但量化分析方法却可以较好地应对这种挑战。因为数据量的加大很大程度上只是对计算机计算能力提出了更高的要求,而量化分析的基本原理没有发生大的变化。量化分析中的多元回归分析可以有效应对数据库匹配之后带来的多变量分析的挑战。实际上,本文介绍的量化历史研究,基本都是在对多个历史数据进行匹配的基础上开展的。
量化方法在应对历史大数据挑战的同时,也有助于分析复杂的历史。历史的复杂性体现在很多方面,梁启超早就注意到:“然因果关系至复赜而难理,一果或出数因,一因或产数果,或潜伏而易代乃显,或反动而别证始明,故史家以为难焉。”(25)
量化方法是处理复杂性的有效方法,其办法主要是将历史现象拆分成不同的因果关系。比如,新教改革无疑是非常复杂的历史现象。量化历史对新教改革的研究,大体可以分为两组研究,一是新教改革的原因,二是新教改革的后果,包括短期和长期的后果等。本文介绍的贝克尔和沃斯曼是研究新教改革后果的量化历史研究之一,贝克尔等学者对新教改革研究提供了一个详细的综述,涉及量化历史研究达50多项。(26)
上述研究的特点均是使用历史大数据,分析因果关系。看起来每篇文章的结论都可以用一两句话进行概括,但其结论经过了上述四个量化分析步骤,可靠性程度大大提升,也大大增加了我们对新教改革这一复杂历史的认识。
(二)识别历史的长期影响,形成贯通性认识
历史的长期影响,(27)是人们关心历史的重要原因。今天很多重要的社会结构性特征,都与历史有关。比如,儒家文化对今天中国人的影响。那如何识别出历史的影响呢?实际上,在量化历史研究中,这是很大一批文献,一般称之为“遗产(legacy)”研究。
一个例子是科举制度的长期影响。科举制度在中国持续了1300多年,1905年被废除,这样的制度对于今天的中国人是否产生了持续的影响,如果有影响,是通过什么渠道产生的?陈婷(Chen Ting)等结合历史上的科举数据、今天的统计数据和大量微观调查数据,对此进行了分析,他们发现,科举制度即使废除了,那些历史上出进士较多的地区,今天平均的受教育年限更长,对教育的重视程度更高。具体来说,在排除其他影响因素的情况下,明清时期一个府每万人中每多增加一个进士,到2010年时人均受教育年限要多增加0.7年。之所以产生这样的影响,主要是由于对教育观念的重视。(28)
量化方法对历史长期影响的分析,也有助于形成贯通性的认识。历史研究强调“通古今之变,成一家之言”,通史的训练是历史学中非常重要和基础的部分。历史学最重要的特征之一是历史的时间性,即考虑人类社会长时段的规律。
尽管强调时间性和打通断代是历史学研究的重要诉求,但中国悠久的历史留存下来的史料汗牛充栋,要从中对某些历史特征进行长时段的描述,具有挑战性。这种挑战,梁启超有过生动的表述,他说:“中国历史可读耶?二十四史、两《通鉴》、九通、五纪事本末,乃至其他别史、杂史等,都计不下数万卷,幼童习焉,白首而不能殚,在昔犹苦之,况于百学待治之今日,学子精力能有几者?”(29)
这种困难,通过简单的量化分析,就可以得到缓解。基于时间序列数据和面板数据,(30)不仅可以快速地对历史时期非常重要的历史事件进行长时段的描述、与世界其他地区已有的研究进行对比,更重要的是,这有助于改善知识创造和积累的方式,以后的学者,将可以在此基础上做进一步的推进,而不需要从头开始阅读史料。这方面的早期探索包括竺可桢对五千年气候变化的研究,(31)《历代战争年表》(32)等。在此基础上,如何建立起气候变化与战争之间的因果关系,则是量化方法擅长的事情。这正是龚启圣和白营的工作,他们研究了游牧民族在什么情况下更有可能攻打中原。(33)
(三)推动历史学与社会科学的交流与对话
史学被认为是一切社会科学的基础,应该成为社会科学理论创新的源泉,但从各个社会科学的实际情况看,史学还没有起到应有的作用。
量化历史直接从问题和假说出发开始研究,这些问题和假说也是不同社会科学关注的问题。如果假说得到证实,由于历史提供的实验室,使得理论被接受的可能性和可靠性得到增强,基于中国历史的例子也可以很好地融入社会科学理论之中。如果假说和理论被证伪,则会更好地推动理论的修改,形成重要的理论创新,这正是社会科学真实的发展过程。当然,历史的作用在这里,不仅仅是社会科学理论的实验室,对于理论的证实和证伪,可以从不同的角度增进对历史的认识。比如,诺贝尔经济学奖得主米尔顿·弗里德曼等人通过对1867-1960年美国货币史的量化历史研究,推导出了著名的货币层次理论及货币供应理论,是对经济学理论的重要贡献。(34)
随着历史大数据时代的到来,如何高效率地处理大规模史料并从中获得规律性认识,是当代历史学面临的新挑战。量化方法经过数十年的发展完善,已经在应对大规模数据库、发现因果关系方面走在了前面。将量化分析方法和历史大数据结合起来,是新史学的重要内容,也是一种必然趋势。本文对典型量化历史研究的步骤进行了详细说明,并介绍了其在应对历史学挑战方面的价值。除此之外,量化方法的类型还很多,留待将来再做介绍。
强调量化历史研究的优势,并非意味着这些优势能够自动实现、或者很快就能够实现,一项好的量化历史研究需要很多条件的配合,也需要大量坚实的工作。而量化历史研究作为一个新兴的领域,仍然处于不断完善的过程之中。
在使用量化历史研究方法的过程中,也需要注意其适用的条件,任何一种方法都有其适用的范围和局限,一项研究的发展也需要学术共同体的监督和批评。量化方法作为“史无定法”中方法的一种,在历史大数据时代,其作用将越来越大。
注释:
①徐善伟:《当代西方新史学与“史料之革命”——兼论中国新史学史料体系的重构》,《史学理论研究》2010年第2期。
②相关介绍参见梁晨、董浩、李中清《量化数据库与历史研究》,《历史研究》2015年第2期;夏明方《大数据与生态史:中国灾害史料整理与数据库建设》,《清史研究》2015年第2期。
③对量化历史发展过程、价值和前景的介绍,参见陈志武《量化历史研究告诉我们什么》,《量化历史研究》2014年第1期;陈志武《量化历史研究的过去与未来》,《清史研究》2016年第4期;陈志武《量化历史研究与新知识革命:以财富差距与消费差距的历史研究为例》,《北京大学学报》2018年第4期。
④Janet Buttolph Johnson,H.T.Reynolds,Jason D.Mycof,Political Science Research Methods,CQ Press,2016,p.54.
⑤陈志武:《量化历史研究的过去与未来》,《清史研究》2016年第4期。
⑥Joshua D.Angrist,Jrn-Steffen Pischke,"The Credibility Revolution in Empirical Economics:How Better Research Design Is Taking the Con out of Econometrics",Journal of Economic Perspectives,Vol.24,No.2,2010,pp.3-30.
⑦陈志武:《量化历史研究的过去与未来》,《清史研究》2016年第4期。
⑧陈志武:《量化历史研究的过去和未来》,《清史研究》2016年第4期。
⑨马克斯·韦伯:《新教伦理与资本主义精神》,康乐、简惠美译,上海三联书店2019年版,第8-9页。黑体字为原文所加。
⑩Daron Acemoglu,Simon Johnson,and James A.Robinson,"Institutions as a Fundamental Cause of Long-Run Growth",in Philippe Aghion,Steven N.Durlauf,eds.,Handbook of Economic Growth,Vol.1a.,Elsevier B.V.,2005,pp.385-472.
(11)当然,《新教伦理与资本主义精神》讨论的内容很多,涉及很多不同的观点,我们这里的讨论只集中于新教伦理是否推动了经济增长这一判断。
(12)普鲁士是新教发源地,是韦伯观察新教伦理与资本主义发展的地区,也是韦伯的家乡,基于这一地区的历史考察韦伯命题再合适不过了。
(13)Sascha O.Becker and Ludger Woessmann,"Was Weber Wrong? A Human Capital Theory of Protestant Economic History",The Quarterly Journal of Economics,Vol.124,No.2,2009,pp.531-596.
(14)对一些已有研究不足的探索性论文,通常会将不同的变量放在一起进行初步分析。
(15)李伯重:《“选精”、“集粹”与“宋代江南农业革命”——对传统经济史研究方法的检讨》,《中国社会科学》2000年第1期。
(16)Paul W Holland,"Statistics and Causal Inference",Journal of the American statistical Association,Vol.81,No.396,1986,pp.945-960.这段话的翻译转引自赵西亮《也谈经济学经验研究的“可信性革命”》,《经济资料译丛》2017年第2期。
(17)庞卓恒主编《西方新史学述评》,高等教育出版社1992年版,第404页。
(18)庞卓恒主编《西方新史学述评》,第404-405页。
(19)关于历史自然试验的介绍,参见Davide Cantoni and Noam Yuchtman,"Historical Natural Experiments:Bridging Economics and Economic History",NBER Working Paper Series,February 2020,26754; Jared Diamond and James A.Robinson,eds.,Natural Experiments of History,Harvard University Press,2010。
(20)Joshua D.Angrist and Jrn-Steffen Pischke,"The Credibility Revolution in Empirical Economics:How Better Research Design Is Taking the Con out of Econometrics",pp.3-30.
(21)这些方法在常见的高级计量经济学教材中都有详细介绍,限于篇幅,在此不展开介绍。
(22)吴承明:《中国经济史研究的方法论问题》,《中国经济史研究》1992年第1期。
(23)陈志武:《量化历史研究与新知识革命:以财富差距与消费差距的历史研究为例》,《北京大学学报》2018年第4期。
(24)黄兴涛:《当代中国历史学的时代使命》,《历史研究》2019年第1期。
(25)梁启超:《中国历史研究法中国历史研究法补编》,四川人民出版社2018年版,“自序”,第7页。
(26)Sascha O.Becker,Steven Pfaff,and Jared Rubin,"Causes and Consequences of the Protestant Reformation",Explorations in Economic History,Vol.62,2016,pp.1-25.中文介绍参见贺嵬嵬《宗教改革的前因后果》,“量化历史研究”微信公众号第358篇推送。htps://mp.weixin.qq.com/s/fYkKeMvlNiDpsJWluBL3w[2019-09-27]
(27)Nathan Nunn,"The Importance of History for Economic Development",Annual Review of Economics,Vol.1,No.1,2009,pp.65-92.
(28)Ting Chen,James Kai-sing Kung,and Chicheng Ma,"Long Live Keju! The Persistent Effects of China's Civil Examination System",The Economic Journal,Vol.130,No.631,2020,pp.2030-2064.
(29)梁启超:《中国历史研究法中国历史研究法补编》,“自序”,第7页。
(30)时间序列数据由一个或多个变量在不同时间点的观测值构成,比如历史上每50年的人口数量。一组观察对象在不同时间的观察值汇集一起,就构成了面板数据,比如历史上每个府每月的粮价。
(31)竺可桢:《中国近五千年来气候变迁的初步研究》,《考古学报》1972年第1期。关于这一历史时期气候变化数据的重建,参见葛全胜、方修琦、郑景云《中国历史时期温度变化特征的新认识——纪念竺可桢〈中国过去五千年温度变化初步研究〉发表30周年》,《地理科学进展》2002年第4期。
(32)中国军事史编写组:《中国历代战争年表》,中国人民解放军出版社2003年版。
(33)Ying Bai and James Kai-sing Kung,"Climate Shocks and Sino-nomadic Conflict",Review of Economics and Statistics,Vol.93,No.3,2011,pp.970-981.
(34)陈争平:《大数据时代与经济史计量研究》,《中国经济史研究》2016年第6期。
-
匿名2023-10-10 08:20:02让重新找回了自己的信心。
-
1.需要文学常识,生僻成语以及名篇名句背诵 1、“方折峻丽,骨力劲健”形容的是历史上哪位书法家的字?2、成语“咫尺天涯”中“咫”、“尺”都是古代计量单位,其中“咫”和“尺
-
说吃嘛嘛香的人叫什么 “牙口好,胃口就好,身体倍棒,吃嘛嘛香”,短短的一句广告词,让全国观众牢牢地记住了这个看起来憨厚善良、风趣幽默的李嘉存。准确地说,相声应该是李嘉存的专
-
学篆刻怎么入门? 您好,分享几本我看过而且觉得不错的书,供您参考,希望对您有所帮助。 1. 《篆刻艺术》 刘江 浙江美术出版社 2. 《篆刻五十讲》 吴颐人 上海书店出版社 3. 《
-
我想第一,应该读一些中国书法史,中国文字的来历、演变,历代有哪些著名的书家,有哪些重要的流派、文字风格等等,这些都应该了解。比如刘恒著的七卷本的《中国书法史》,朱天曙著的《