王辉：当代西方循证犯罪预防研究简述及启示

作者：王辉发布日期：2013-05-17

「王辉：当代西方循证犯罪预防研究简述及启示」正文

【摘要】当前西方国家使用循证方法开展犯罪预防研究比较盛行，并产生了一批重要的研究成果，但我国还没有将此方法引入刑事司法领域。犯罪预防评估可以采取多种方法，其中表决计分评价法、系统性评价法和荟萃分析法是主要的循证方法。我国亟待在刑事司法领域引入循证研究方法，借鉴西方已有的循证犯罪预防研究成果为我所用，重视西方循证犯罪预防研究结论在我国的转化问题，努力为我国刑事司法理论研究和政策制定的科学化创造条件。

【关键词】循证；犯罪预防；表决计分评价法；荟萃分析评价法；系统性评价法

近二十年来，西方国家刑事司法领域一种名为“evidence-based crime prevention”（简称EBCP）的研究方法比较盛行，并逐渐演化成一种国际趋势。据笔者不完全统计，美国、英国、德国、法国、加拿大、澳大利亚、新西兰、瑞典、西班牙等国家都在开展“evidence-based crime prevention”的相关研究。“Evidence-based”一词最早出现在医学领域。鉴于其研究方法的科学性，这种研究方法迅速扩展到公共政策决策、教育和犯罪预防等多个领域。本文拟在介绍和简述“evidence-based crime prevention”的基础上，提出一些粗浅的看法。

一、当代西方循证犯罪预防研究简介

（一）“evidence-based”一词的翻译问题

“Evidence-based”一词的本意为“在证据基础上”，上世纪90年代引入中国后，医学界最早将其翻译为“循证”，例如将“evidence-based medicine”翻译为“循证医学”，将“evidence-based nursing”翻译为“循证护理学”。虽然有人对“循证医学”的译法提出过异议，认为应当翻译为“证据医学”{1}，但实际上我国医学界已经普遍接受“循证医学”的概念。从语言学上讲，“循”有“依据”的含义，“循证”即依据证据，与“evidence-based”一词本意相符。考虑到词语翻译的简洁性、准确性和惯例，我认为将“evidence-based”一词翻译为“循证”是准确和适当的，“evidence-based crime prevention”相应翻译为“循证犯罪预防”。

（二）西方循证犯罪预防研究的主要成果

循证犯罪预防研究的历史并不长。有人认为最早在犯罪预防领域开展循证研究的是利普顿（Lipton），他1975年对矫正处遇项目进行了评估研究{2}。20世纪80年代开展了一些反驳“马丁森炸弹”以及评估犯罪预防替代刑事效果的研究。20世纪90年代以来，受循证医学研究和应用的积极影响，循证犯罪预防研究产生了一些重大成果。例如，克拉克（Clarke）1992年出版的《情境犯罪预防：成功的案例分析》（Situational Crime prevention：Successful Case Studies），唐瑞（Tonry）和法林顿（Farrington）1995年出版的《建立一个更加安全的社会：犯罪预防的战略方法》（Building a Safer Society：Strategic Approaches to Crime Prevention）。美国着名学者谢尔曼（Sherman）等人1997年向美国全国司法研究所提交了《预防犯罪：什么是有效的，什么无效的，什么是有希望的》（Preventing Crime：What Works，What Doesn't，What's Promising）的研究报告，并且2000年在此基础上出版了《循证犯罪预防》（Evidence-based Crime Prevention），这是循证犯罪预防研究的里程碑。2006年出版的由韦尔什（Welsh）和法林顿（Farrington）共同主编的《预防犯罪：什么对孩子、犯罪人、受害人和场所是有效的》（Preventing Crime：What Works for Children，Offenders，Victims，and Places），德国施普林格（Springer）出版公司于2011年出版了由谢尔曼（Sherman）和斯特朗（Strang）主编的《施普林格循证犯罪政策系列丛书》（Springer Series On Evidedence-based Crime Policy），包括《在社区矫正和戒毒治疗领域开展循证研究》（Implementing Evidence-Based Practices in Community Corrections and Addiction Treatment），《循证反恐政策》（Evidence-Based Counterterrorism Policy）和《把犯罪恐惧映射在地图上--运用地理信息系统对犯罪感的研究》（Putting Fear of Crime on the Map-Investigating Perceptions of Crime Using Geographic Information Systems）是循证犯罪预防研究的最新力作。此外，在非英语世界也有一些循证犯罪预防的着作，例如德国格拉布施（Graebsch）2009年出版的《循证犯罪预防：基于预防犯罪政策的重要性、可能性和实验研究的局限性》（Evidence-based Crime Prevention：Bedeutung，Moglichkeiten und Grenzen einer auf experimentelle Forschung gestutzten Kriminalpra ventions politik）和2011年出版的《什么是有效的？什么是无效的？谁来关心？“循证刑事政策”和青少年犯罪政策的现实》（What works？-Nothing works？-Who cares？，Evidence-based Criminal Policy“und die Realitat der Jugendkriminalpolitik）。上述着作反映了当代西方循证犯罪预防研究的主要成果。

（三）西方循证犯罪预防研究的主要方法

韦尔什（Welsh）和法林顿（Farrington）认为，循证犯罪预防研究的方法包括单一研究评价法（Single Study Review Method）、叙述性评价法（Narrative Review Method）、表决计分评价法（Vote-Count Review Method）、系统性评价法（Systematic Review Method）和荟萃分析法（Meta-Analytic Review Method）{3}。单一研究评价法和叙述性评价法不太严格，因此循证犯罪预防研究较少采用这两种方法，而表决计分评价法、系统性评价法和荟萃分析法的评价质量很高，因此更多地用于循证犯罪预防评估。在评价犯罪干预有效性方面，系统性评价和荟萃分析评价是最严格的方法。最近的10多年以来，高质量研究证据的系统性评价，包括荟萃分析方法，在发达国家的社会科学领域得到越来越普遍的重视，特别是在刑事司法领域。下面分别介绍表决计分评价法、系统性评价法和荟萃分析法。

1.表决计分评价法

1996年，美国国会通过一部联邦法律，要求总检察长提供一份独立评估报告，就司法部犯罪预防补助拨款计划的实施效果进行评估，并要求必须采用严格的、科学的、公认的评估标准和方法。受全国司法研究所委托，以谢尔曼（Sherman）教授为首的研究小组承担了此项评估任务，他和他的同事提出了一种全面的表决计分评价法（Vote-Count Review Method），称为”马里兰科学方法测算表“（The Maryland Scale of Scientific Methods）[1]。这种表决计分评价法没有采用有关许多特定标准的计分总和的方法（如从0到100），而是使用了一种简单的5点等级，主要目的是为了设计测算内在效用的一个简单等级，以便于理论学者、政策制定者和实际工作者进行交流和沟通。这5个等级分别为：

1级：在一个时点上预防计划和犯罪测算值之间的相关性（例如，安装闭路电视监控系统区域的犯罪率低于未安装该系统的区域）。

2级：在不可比的控制条件下，预防计划之前和之后的犯罪测算值（例如，在某个区域安装闭路电视监控系统之后，犯罪率下降了）。

3级：在实验的和可比的控制条件下，预防计划之前和之后的犯罪测算值（例如，在实验区域安装闭路电视监控系统之后犯罪率下降了，但在可比控制区域犯罪率没有下降）。

4级：在多实验和控制单位条件下，即控制影响犯罪的其他变量，在预防计划之前和之后犯罪测算值（例如，在控制影响他们受害的前提条件特征之后，在闭路电视监控系统监视前提条件下的受害比控制前提条件的受害下降了）。

5级：把预防计划和控制条件随机地赋值给单位（例如，随机赋值给闭路电视监控系统监视的前提条件的受害比控制前提条件的受害下降了）。

其中，1级设计无法排除对内在效用的许多威胁，也无法建立因果关系的顺序。2级设计建立了因果关系的顺序，但无法排除对内在效用的许多威胁。3级设计能排除对内在效用的许多威胁，例如历史、成熟趋势、使用仪器、测试效果、微分损牦等，但主要问题体现在选择效果上和均值回归上，因为实验和控制条件是非等价的。4级设计能够更好地控制外在影响，从而可以更加适当地处理选择和回归威胁。在5级设计下，如果随机赋值的单位数目足够大，在影响结果的所有可能外生变量当中，在统计波动的界限内，实验条件变量将等于控制条件变量。因此，这个设计可以处理选择和回归问题，而且具有最大可能的外在效用。

谢尔曼等人认为，1级和2级设计是不科学的，无法评估计划的有效性。3级至5级设计的解释力是逐渐增强的，其中3级设计具有最小的解释效力，而4级和5级设计具有严格的解释效力。分级评价的目标是把所有计划类型分为四类：什么是有效的，什么是有效的，什么是有希望的，什么是未知的[2]：

什么是有效的。存在一些在各种社会背景下的预防犯罪计划，并且已经在这些背景下评价过这些计划。作为有效的计划，至少必须有3级至5级当中的两个评价值，从而说明具有统计显着性和合意的结果，以及证明有效性的所有可用证据是占优的。

什么是无效的。存在一些无法预防犯罪的计划。作为无效的计划至少必须有3级至5级当中的两个评价值，利用统计显着性测试说明无效性和支持同样结论的所有可用证据是占优的。

什么是有希望的。存在一些计划，在这些计划中，从可用证据中得到的确定性水平太低，以至于不支持可概括的结论，但存在某种实验基础，从而断言，进一步的研究可能支持这个结论。作为有希望的计划，必须在3级至5级中有一个评价值可以说明显着性测试是有效的，而且剩下证据占优性的显着性测试也是有效的。

什么是未知的。任何无法归类为以上三种的计划可以定义为具有未知效应的计划。

表决计分评价法的优点是考虑了统计显着性，为叙述性评价增加了定量的因素，吸纳了系统性评价法和荟萃分析的部分内容，具有很大的效用。但是这种评价方法也有一定的局限性，如不考虑方法的特性而对所有研究赋予相同的权重。

2.荟萃分析评价法

荟萃分析法（Meta-Analytic Review Method）是指用统计合并的方法对具有相同研究目的的多个独立研究结果进行比较和综合分析的研究方法。传统的文献综述是对有关文献的内容或结论进行罗列、简单描述和初步论述，荟萃分析则是将已经获得的研究结果进行综合分析，特点是用统计分析方法验证有效的结论，从而更为科学、客观地综合反映研究成果。

这种方法首先应用于医学领域，并发展成为一门新兴学科--”循证医学“的主要内容和研究手段。从医学领域来看，根据荟萃分析所依据的基础或数据来源，可以将其分为三类：文献结果荟萃分析（Meta-analysis based on literature，简称MAL）；综合数据荟萃分析（Meta-analysis based on summary data，简称MAS）；单个病人数据荟萃分析（Meta-analysis based on individual patient data，

「上一篇」 ← 「返回列表」 → 「下一篇」