【编者按】当数据成为基础设施架构的水电煤时,数据安全成为这个架构的最大隐患。本文介绍了包括暗数据的产生、无法理解数据、数据工具不完善等几种数据问题,指明数据安全漏洞的危害和亟需防范。
本文首发于安全牛,作者星云;由编辑,供行业人士参考。
大数据时代,数据蕴藏着巨大力量。如今,很多企业和公司都依靠将海量的数据作为样本来建立大量的技术分析模型,有效数据越多,越能帮助企业创造出最为有效的模型。而另一方面,企业也越来越重视数据保护——无论是和用户相关的敏感信息,还是会影响到企业自身机密的运营数据,都是企业在网络安全中必须保护的对象。
但是问题来了,我们真的做到保护所有的数据了吗?对于这个问题,大多数企业肯定会回答:是啊,我们做了对所有数据的完善保护,配置了数据库防火墙、DLP、IDS/IPS等针对数据的安全系统,怎么会没有保护好所有的数据?
且慢,企业固然是对数据进行了全方位的保护。但是,下一个问题:我们真的知道自己保护了哪些东西吗?或者换个问法,我们真的知道我们有多少数据吗?企业很可能会回答:你看,这是我们的数据库系统,这是我们的网络部署方式等等——怎么会不知道我们拥有哪些数据以及它们在哪呢?
可是事实真的是这样的吗?
举个简单的例子吧,如果有一个人用了一台电脑多年,突然想从自己几百个G的硬盘中找一份相关资料。然而,他早已忘了它被放在哪里、文件名又是什么、修改时间又是什么,他唯一记得的就是里面的可能内容——以及这些内容里会有敏感信息。这种情况在企业的运营当中也会存在:比如当因为需求重新产生或者技术的更新,企业需要针对某项曾经的业务进行重新启动并且优化的时候,可能会因为业务的时间过长而导致业务相关数据无法被发现,使得企业无法在这些数据的基础上制定更合适的方案。
以上的例子只是企业中可能无法被利用的数据的一种可能性,企业在运营的过程中会产生和储存大量的数据,并且其中会有很大一部分数据数据因为没有被发现无法被真正投入使用。事实上,这类数据就是“暗数据”,Gartner很早就定义了“暗数据”:组织在常规业务活动中收集、处理和储存,但通常无法用于其他用途的信息资产。Veritas在2016年的《数据冰山报告》中提到,企业的数据中,52%为价值尚不明确的暗数据,33%的数据属于对于企业没有价值的冗余、过期或者不重要的陈旧数据——换而言之,我们现在所使用到的储存数据,只占了数据总量的15%。企业对于自身数据的了解和使用程度还远远不够高。
暗数据产生的原因有很多,例如人们的遗忘、文档的缺失和未有效处理、组织和人员的变更等,随着时间的推移,持续导致暗数据囤积,大量的数据隐藏在黑暗中无法被认知,最后汇聚成了一片数据的黑暗之海,变的腐朽不堪。
在这片暗数据之海下,固然有着大量没有价值的陈旧数据,但是一旦扫除这些无用数据,本身能给企业带来大量的网络、存储和计算资源,剩下的数据也存在着无限的潜力:通过挖掘和利用这些数据,企业可以获得更好的业务模型、发现更多的用户倾向、开发新的产品等等。无论是了解企业自身状况,还是了解自己的客户情况,这些数据都会带给企业巨大的价值。
然而,窥探这些暗数据的还有其他人——内部和外部的攻击者们。由于企业对自身的数据情况不够了解,无法轻易获知自身哪些数据有价值,更难以在数据泄露后发现事件以及对事件进行响应和溯源。相对的,对于攻击者来说,除了窃取传统的敏感数据(比如个人身份数据、财务数据、内部通信数据等),攻击者还会窃取任何安全保护不足的数据。如果企业对暗数据缺乏了解,那么具有潜在有价值的数据就无法得到应有的保护等级,容易被攻击者获取。而对于攻击者来说,每一项数据可能都有价值,尤其是在对不同数据进行各种组合的情况下,原本孤立的非敏感数据可能会成为机密数据。攻击者可以通过分析这些数据,获知企业的业务信息、交易信息、内部交流等内容,一旦这些信息被泄露,会对企业的研发、市场影响以及之后的业务合作带来极大的负面影响。
那么,回到之前的问题:我们真的保护了所有数据吗?我们真的知道自己有哪些数据吗?我们真的知道自己的数据都在哪里吗?
由于暗数据拥有无限的潜力,我们需要对暗数据采取保护措施。但是首先我们需要知道自己有哪些暗数据,对暗数据进行梳理,知道哪些是敏感数据,哪些是有价值的数据、哪些又是无效的数据。
但是,在这一过程中,企业会面临很多问题,主要包括以下几个方面:
1. 对数据的理解存在误区:企业需要理解到的是,数据是需要作为资产被保护的。数据资产和网络资产(如域名、IP、DNS服务器等)类似,是整个企业信息资产的一种。对于资产的保护,我们首先要明确我们有哪些资产——而不仅仅是这些资产在哪里。如同我们对仓库里的资产进行保护,我们首先要了解到仓库里有些什么货物,哪些是有价值的资产,哪些是没有价值的垃圾——数据需要被给予同样的对待,企业不仅仅需要知道数据库里有数据,更需要知道自己有哪些数据,从而将有价值的数据梳理后转化为数据资产——之后再进行使用以及保护。
2. 无法获取所有信息:对于数据最熟悉的人莫过于直接接触业务的人,因此,当尝试获取数据的时候,需要依靠业务相关的人员;而企业内部每一位员工都有自己的定位,只能触及自己特定的业务线,只能挖掘和自己业务相关的数据。这样一来,在进行数据梳理的时候,就很难真正做到对数据的全面梳理。而另一方面,如果根据业务分别对数据进行梳理,又无法将不同数据结合,发现数据内在价值。
3. 无法识别数据含义:数据单纯来看可能只是毫无价值的数字。但是,如果要让这些数字变得有价值,就需要企业识别每份数据之后的含义。
4. 数据工具不完善:企业想要去了解数据,首先需要知道数据库里每张表描述哪些业务,表里的每个字段表示什么意思。但是,现阶段大多数企业内部数据字典不完善,导致企业在尝试去了解数据之初就遇到阻碍。
事实上,这些问题不仅仅是对企业数据的保护,对数据的利用本身也存在着这些困难。而要解决发现暗数据的难题,需要数据安全厂商的合作。从国内市场来看,更重要的是帮助企业认识和挖掘自己的暗数据,这条赛道任重而道远。