杜雁芸:大数据时代国家数据主权问题研究

作者:杜雁芸发布日期:2016-06-22

「杜雁芸:大数据时代国家数据主权问题研究」正文

摘  要:人类已进入大数据时代,大数据的广博性、关联性和战略性引发世人关注。与此同时,国家独享“绝对主权”时代终结,传统理念无法适应国家管控海量数据传送和集聚的现象,数据主权随之应运而生。文中通过对已有数据主权概念进行辨别分析,厘清数据权、个人数据权利、信息主权、网络主权与国家数据主权的关系,从国家视角进一步界定数据主权概念。基于国家间数据主权博弈、数据跨境流动、大国数据霸权和数据处理的自身特征等因素,各国有效行使数据主权能力十分有限,国家数据主权面临威胁和挑战。最后提出我国应对挑战、捍卫数据主权的几点举措:构建中国国家数据战略、提高核心数据控制能力、实现数据自由流通与数据跨境管控之间的合理平衡。

关键词:大数据的特性  国家数据主权  概念辨析  威胁和挑战  应对举措

随着移动互联网、云计算、物联网等新科技的飞速发展,遍布全球的传感器成为数据来源和数据载体,以及承载数据信息的智能手机、平板电脑和PC的使用普及率不断攀升,大量数据飞速生成和聚集,催生了数据规模的爆炸式增长,标志着人类已进入大数据时代。大数据发展超越了原先以国土疆界为划分的安全概念,数据主权逐步引起各国重视。与此同时,一国不能有效管控其主权范围内的数据及本国居民跨境流动的相关数据,数据主权面临巨大挑战。本文以理解大数据的三个维度为切入点,通过厘清数据权和数据主权等几对关系,挖掘数据主权的内涵,进而分析国家数据主权面临的挑战并提出我国捍卫数据主权的应对之策。

一、理解大数据的三个维度

大数据是指PB级以上的数据集合,由于信息量过大,传统的存储设备无法进行搜集、存储和处理,人类开始利用新的技术对数据进行管理。随着大数据的关注度日益升高,其4“V”特点逐步被人们所认可:以TB级跃升至PS级的庞大数据规模量(volume)、结构化数据与非结构化数据并存的多样数据类型(variety)、实时在线处理的及时高速性(velocity)和价值密度低且数据价值巨大(value)。理解大数据不能局限于4“V”特征,我们还应从它的广博性、关联性和战略性进行分析。

(一)大数据的广博性

首先,大数据的体量庞大,而且规模呈现不断扩大趋势。当前海量数据规模已超出传统计算机处理数据量的级别。数据体量已从GB(1GB=1024MB)升级到TB(1TB=1024GB)、PB(1PB=1024TB),甚至EB(1EB=1024PB)和ZB(1ZB=1024EB)。2011年国际数据公司(IDC)的研究报告中提出,今后十年大数据将递增50倍,截止2020年世界数据量高达35.2ZB。当前,一些大企业的数据量甚至达到PB量级,截止2014年3月阿里巴巴数据量已超过100PB。

其次,大数据种类繁多,来源广泛。从大数据类型上看,包括结构化数据、半结构化数据和非结构化数据。结构化数据是指传统数据库收集的数据,能够用数据或统一的结构加以表示,包括互联网世界中人与人的交互信息、物联网世界中的商品和物流信息以及企业内部的经营交易信息等。非结构化数据来自社交网络和物理传感器,包括话语、图片、影像以及电子探头数据等。近些年来,随着智能设备和视频器材的普及,大数据的来源越来越广泛,非结构化数据不断涌现,每年以60%的速度持续增长。到2012年底,非结构化数据已占整个数据量的75%以上。从大数据来源上看,可以分为三类:一是由用户自主输入和提交的数据;二是由采集器-终端采集的数据;三是卫星收集的全球数据;四是在使用过程中形成的“元”数据。这些数据已经超过了ZB,也就是万亿GB的水平,任何具备有效使用这些数据的行为体,将获得巨大的经济收益、政治影响力和安全能力。

再次,大数据使用程度多样化,使用状态多元化。美国信息存储资讯科技公司(EMC)按照使用程度和使用状态将大数据划分为三种:活跃数据,被有效标识并已经使用的数据;唤醒数据,已被标识但并未有效使用的数据;沉睡数据,既没有被标识也没有得到有效使用的数据。EMC公司在《数字宇宙》报告中指出,沉睡数据高达80%。由此可以看出,人类对数据的使用仍然处于非常初级的阶段,庞大的沉睡数据有待于人类开采使用。

(二)大数据的关联性

大数据的“大”不仅仅指“量”的庞大,还深层次的揭示了数据生态系统相互关联的特性。由于数据显性化和网络隐形化的结合,数据之间的复杂关联无所不在。“关联性”是指两个或两个以上变量的取值之间存在某种规律性。大数据的价值来源于数据之间的相互关联,例如个体不同信息之间的关联、不同个体相互之间的关联、不同群组之间的关联、甚至是信息本身的结构关联等。大数据的关联分析沿革了统计学的特点,并不是建立在因果关系上的逻辑推理研究,而是对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度、兴趣度等参数反映相关性。例如,两个数据A和B有关联性,可以看出A和B在取值时相互有影响,并不代表有A就一定有B,或者有B就一定有A。因此,大数据处理是一种能力,即用关联方法从看似没有价值的数据中挖掘出有用信息的能力。

运用大数据的关联性揭示事务的规律性十分重要。对于简单封闭的系统,小数据的因果分析简单易行,这是一种基于有限数据样本而不得不对客观世界进行简化的结果。但对于开放复杂的巨系统,传统的因果分析难以奏效,因为大数据处理的是流式数据,价值密度低,数据规模不断变化,变量间的因果关系具有时效性,往往存在此一时、彼一时的情况。系统中各个组成部分之间随着时间关系相互影响,可能互为因果,因果关系隐藏在整个系统之中。现在的“因”可能是过去的“果”,此处的“果”也可能是别处的“因”,因果关系本质上是一种相互纠缠的相关性分析,相关关系是为了间接地认识因果关系。这就需要我们运用相关性来揭示大数据背后的规律性。日常生活中,个人、群体和国家都会在不经意中留下各种各样的“数据脚印”。例如,阿里巴巴公司根据客户的购买行为、手机全球定位卫星数据以及可穿戴设备上产生的数据,挖掘出客户的相关“推测数据”(inferred data)。这些数据若是经过系统联系、处理和归纳总结,就会揭示个体和群体有价值的规律性,影响个人、群体乃至国家的生存和安全。上文提出,近10年来增长最快的数据是网络上传播的各种非结构化或半结构化的数据。网络数据的背后是相互联系的各种人群,根据相关数据可以洞察到近期国家信息空间是否安全和社会是否稳定。因此,大数据的关联性分析,是揭示事务本质、搜取信息规律性的关键所在。

(三)大数据的战略性

大数据是社会高度信息化的必然产物,事关国民经济运行安全和社会稳定。“大数据堪称智能交通、智能电网、智慧城市等国民经济运行和社会发展高度依赖的信息基础设施‘血液’,这些重要的信息系统、基础设施网络化智能化程度越高,安全也就越脆弱;速度越快,风险也就越大。”人类越来越倚重以大数据为支撑的基础设施,大数据的安全与否已关乎社会稳定和国家安全,若社会的“血液”发生问题,则造成肌体的影响和损失是难以预计和估量的。2011年,索尼发生重大数据泄密事件,用户的姓名、电子邮箱地址、密码、信用卡号等均被曝光,牵连7700万用户,损失成本高达1.71亿美元,PSN服务关闭23天。

大数据是与自然资源、人力资源同样重要的战略资源,是一个国家数据主权的体现。大数据将成为国家主权实施的权力基础,数据成为社会权力的重要来源。大数据蕴藏着最新科技、社会动态、市场变化、国家安全威胁征兆、战场态势和军事行动等各种政治、经济、文化、安全等信息。信息权力不仅是主权国家控制国内社会的基础,信息权力还是外交力量的倍增器。因此,数据为王的大数据时代的到来,谁能够占有大数据,谁就能占据庞大的数据“宝藏”;谁能最大限度地挖掘大数据中的价值,谁就能拥有“未来新石油”的控制权。这已经成为国家的核心竞争力。

二、国家数据主权的概念辨析

随着科学技术的发展,国家传统主权范围逐步扩大,主权概念也随之扩充其内涵与外延。随着“大数据时代”的到来,国家独享“绝对主权”时代终结,已有的信息主权无法适应国家管控海量数据传送和集聚的现象和行为,数据主权便应运而生。目前,国内外学术界对数据主权概念界定各有侧重,并未形成统一认识。通过厘清各种关系,正确辨析国家数据主权的概念,是研究数据主权的逻辑起点。

(一)从传统主权概念的沿袭进行界定

传统主权将国家主权概括为对内最高统治权和对外独立权。博丹在其《主权论》中明确指出:国家主权是一个国家的固有属性,是一种以国家为范围的对内最高统治权和对外独立权。国家主权以国家地理疆界为界限,不可转让、不可分割、不受限制。可以看出,博丹认为,不论是对内最高权还是对外独立权,都具有最高的权威性和排他性,不受任何外部实体的制约和影响,是国家利益的核心问题之一。

目前,一些学者沿袭了传统主权的概念,将数据主权的界定回归到传统主权的含义中。有学者从对内最高统治权进行界定,认为数据主权的主体是国家,是一国独立自主对本国数据进行管理和利用的权利。还有观点认为,数据主权除包含对内控制权外,还应涵盖对外独立性两个层次。他们将数据主权定义为:国家对数据和与数据相关的技术、设备、服务商等的管辖权及控制权,体现域内的最高管辖权和对外的独立自主权、参与国际事务的合作权。齐爱民将捍卫数据主权上升为一种原则,即数据主权原则――对内体现为一国对其政权管辖地域内任何数据的生成、传播、处理、分析、利用和交易等拥有最高权力;对外表现为一国有权决定以何种程序、何种方式参加到国际数据活动中,并有权采取必要措施保护数据权益免受其他国家侵害。 可以看出,数据主权是国家主权内涵的延展和扩充,数据主权的概念本应回归传统主权的应有之义,但以上界定并未凸显数据主权的特殊性。

(二)从数据主权实施的内容上进行界定

当前,与数据主权相关的概念种类繁多,例如广义数据权、狭义数据权、数据权利、数据权,以及数据所有权和使用权等等,这些概念相互交织、错综复杂,只有厘清彼此间关系,才能准确辨析数据主权的概念。

从主权实施的范围看,有学者将数据主权分为狭义数据主权和广义数据主权。狭义数据主权单指国家数据主权,广义数据主权包含了国家数据主权和个人数据主权。顾名思义,国家数据主权的主体是国家,个人数据主权的主体是公民。多数西方学者提到的数据主权多指个人数据主权,而中国学者主要强调国家数据主权。个人数据主权与国家数据主权之间的关系可以表述为:个人数据主权只能置于国家数据主权的框架下、在国家数据主权的范围内运作,

上一篇 」 ← 「 返回列表 」 → 「 下一篇