收藏本页 打印 放大 缩小
0

打破大数据利用的篱笆

发布时间:2017-03-07 12:23:13    作者:谭海华    来源:中国保险报·中保网

□华矩科技总经理 谭海华

大数据产业的主要问题在于数据垄断和数据孤岛,其妨碍了大数据产业的进一步发展,提出相关的解决方案,即如何通过数据质量及数据标签共享技术打破大数据利用的篱笆,从而建立起一个颠覆当前大数据产业格局的新的大数据产业生态圈,通过技术手段使得中小企业及中小数据源可以透过碎片数据资源进行有效地融合,建立起平等的大数据利用能力,打破现行的数据源垄断的局面。

大数据产业发展面临的问题

数据垄断及数据孤岛

企业垄断数据现象突出、数据非法交易猖獗、数据孤岛林立致使融合困难、相关法律体系尚不健全。比如关于大数据垄断问题,像BAT体系现在并不开放,高德地图被阿里巴巴收购之后,也不再向外界开放地图数据,也就是变相的垄断相关大数据。道理很简单,相关企业搜集全国各地地图大数据是花费了巨大的人力物力和财力,他们垄断是为了获利。现在,政府为了打破这些大数据垄断来最大限度地为社会服务,即便要立法让其开放数据,也不能直接强行要求企业无偿开放,因为这不符合法治精神和市场精神。

要打破数据垄断和数据孤岛, 需要解决数据交换/共享的市场化机制,在符合相关法律及隐私保护条例下,能自由实现数据价值共享。

利益分配

当前导致数据垄断的一个很主要的原因就是,在大数据产业中上下游企业无法做到数据分享的合理利益分配机制,这也是导致“数据源”本位主义的原因。建立科学及合理的产业链利益分配机制,有利于激发产业的良性发展。这里涉及数据资产定价,数据拥有权及使用权分离的相关法律规定等。

数据资产及定价

数据作为一个特殊的产品,如果它不能合理给予定价, 将影响它的流通性及市场化,这将直接影响到大数据产业上下游企业的利益分配。数据的定价又涉及数据的特殊性,如数据质量及其衡量标准, 数据的价值衡量, 数据多次使用及其衍生的价值,数据使用权及拥有权价值等。解决数据资产定价是业界的难题,目前尚无更好的解决方案,如何通过实践建立大数据资产定价及其流通的价值认定, 是大数据共享的关键。

法律及隐私保护

影响大数据产业发展的另外一个重要因素是,如何在确保隐私保护的前提下进行数据共享及市场化运作。数据所有权的企业不代表它可以越出它的业务范围提供给第三方使用,尤其是个人等敏感信息, 数据的这些隐私及敏感性在具有相对性,就是说在某些场合时敏感及保密的, 但在其他某些场合又是必须公开的。如医院患者的相关信息数据用作科研是它又是需要被交换和共享的,就是说有些时候数据的使用目的决定了数据的保密程度及合法性。这些都增加了数据共享和交换立法的难度,及市场把握的难度。

大数据产业利用上的瓶颈

数据质量成为数据利用的主要瓶颈

企业长期累积下来,各系统的数据都存在各种问题,却难以发现问题到底出在哪,感受最直接的往往是管理层收到的报告数据存在较大偏差,这让管理层对数据可靠性的质疑加深,在这种情况下,管理层往往也不易接受反直觉的数据分析结果,从而错失重要战略信息。

数据的清洗需要大量人力物力投入

企业数据团队前期通过大量的调研与验证,往往发现用现有的力量,通过自写代码的方式进行数据质量的诊断,耗时耗力,且成效不佳,难以跟上公司业务高速发展对数据的高质量要求,因此,亟需寻求专业的数据质量服务帮助企业挺过难关。

封闭的数据利用环境

广义上讲,我国政府、企业和行业信息化系统缺乏统一标准,形成了众多“信息孤岛”,数据开放程度较低、共享难,这给大环境下的数据利用造成极大障碍。狭义角度讲,一个企业里面不同系统,不同体系的数据因为标准化、准确性、完整性低,利用价值不高的情况没办法进行整合和分析,导致企业内部也无法充分利用数据。也就是说,无论是内部环境还是外部连接上,大数据之路都看似艰险,只有找到打通内外的方法,才能再往前迈进一步。

如何建立企业大数据能力

企业的大数据能力主要有四个方面,第一个是数据生产能力,第二个是数据拥有能力,第三个是数据管理能力,第四个是常见的数据的应用能力,如数据分析、精准营销等。

如何获得企业自己的大数据,在数据战略里面是非常重要的一个环节。现在市面上也有很多讨论数据获得的方法,像贵阳的大数据产业,里面也有很多企业在谈通过数据交易来获得数据的方法,这是一种。而在这里主要提到的是另外三个方法: 第一是获取增量数据,即通过各种渠道如爬虫联盟,微信、微博等,已经有很多种类似的产业链,这都是在做数据增量,但这种途径做的增量往往会发现质量有问题;第二是挖掘现有数据的价值,也就是通过提升他的数据质量,获取更多的未知信息,提高企业的数据价值,这种模式原始数据存量和增量可能都不会增加,但数据质量在提升,有价值的数据在增加。第三是数据共享,在这种数据共享模式里面,存量增量质量都能够得到提升。

数据质量与数据标签共享技术

通过数据共享是其中一种快速建立企业,尤其是中小企业大数据能力的有效途径之一,这也符合当前的已经被验证过的通过碎片资源、独立微小个体的联合,在一个大家共同遵守的业务规则下,兼顾独自发展模式自由度最大化,同时又能有效整合各自资源积小成大的发展模式,依托在一个共同平台下有效的提升自身的竞争力。

1.共享经济的主要元素

数据共享作为当前共享经济的其中一种形态,如同所有其他共享经济的模式一样,有几个要素,第一是所有权跟使用权的分离,第二是参与及共享的成本被降低,第三是它有非常清晰的价值认定体系及标准,如果价值认定和标准不清晰的话是没法对接的。第四是大数据。作为新事物,数据共享同样面临挑战,如上文所提到的封闭的数据利用环境,目前数据共享最主要的挑战除了政企数据开放程度低、跨界数据缺乏统一标准,还面临法规方面的安全隐私问题。

2.数据共享的主要构想

这个数据共享机制主要包含五方面的特征:首先是符合国家相关法律,这个规避不了,必须要符合法律,解决安全隐私问题。二是建立数据质量的验证体系,这个体系将是跨机构进行商业化数据共享的重要条件, 是衡量数据贡献度及价值的重要指标体系之一。三是建立标签库及相关行业标签,这是很重要的数据供需方连接载体。四是系统接口规范, 涉及可能的系统对接、数据库对接、源数据对接以及数据标签对接等技术标准化规范化。五是数据与渠道的定价模型,建立共享经济的利益各方的利益分配机制。影响这个的定价模型的要素将包括数据质量、匹配记录数、数据吻合度、数据利用的效率及回报率、数据精准度及匹配精准度问题等。

其中有两个重要概念需要强调:一个是业务标签的概念,二是数据质量验证。这两个特征能够确保我们在异构的体系里面或者不同数据源之间进行对接。业务标签是用来告诉你这个平台里有多少数据是符合你要求的,即通过标签进行资源筛选。另外一个是数据质量,这个特征确保你获得的数据都是经过质量验证的,是真实有用的。

3.数据标签在数据共享平台的主要使用

关于业务标签库的管理我们会分行业,分主题,分属性,业务标签库和业务规则密不可分。企业在做数据治理时,常需要建立相关的业务规则,首先是标签库的建立;二是创建统一标准,这个标准包括有关标签的描述,有关标签调用标准,有关标签使用结果度量标准等;三是标签数据匹配的问题,包括如何建立这个标签,标签的匹配度量,吻合度是多少,要求是什么。

4.数据共享相关的接口规范

为了能在异构体系,跨平台, 不同行业的企业间建立数据共享机制, 必须建立一套大家遵循的业务及技术接口规范, 这些规范包括如数据库建设规范, 数据质量度量标准, 标签调用规范及数据匹配规范等。

5.数据共享利益分配定价模型考虑因素

为确保数据共享的健康发展, 必须建立及完善一套为数据共享各方所能接受的利益分配定价模型。这个模型应该考虑如下但不仅限于这些元素,一是用于交换的数据质量, 而是在共享业务中的按照业务规则选择匹配的记录数, 三是在整个数据共享业务中相互配合的效率,四是获取的数据的精准度。

6.数据质量在数据共享平台的主要作用

数据质量问题有很多种,常听到IT负责人说我做的系统绝对没有问题的,但数据问题不是系统导致的有很多,有很多是历史问题,金融界太多了,保险业更严重,有些保单三十年没变过,系统也换了五批,这种不同时期的数据导致的数据质量问题非常多。

数据质量在整个共享经济里面是非常重要的,怎么建立一套数据质量评判体系,包括我们怎么样进行数据对接,都跟数据质量有关。在数据质量验证体系中可以把数据源与数据标签使用方对接起来,如果数据质量有问题的话,会直接导致我们对匹配结果的否定,如果不进行数据优化这些数据标签是无法进入到平台实现共享的,也就确保了数据需求方接触不到这些不良的数据,从而保障数据共享体系的稳定运行。

大数据产业将快速分化, 重新形成新的大数据产业格局, 数据源将成为一个公共的资源池,将打破原来靠数据原始积累先进入该领域的大数据企业的垄断。大数据产业的重点将更快更多转移到大数据应用及解决客户数据利用问题,产业将进一步分化出更多的细分市场,如数据处理公司,数据标签公司,数据营销公司等。过去靠原始数据积累如流量公司, 粉丝经济等一去不复返,而具备深度数据价值的公司将崛起。数据资产及定价的不断完善, 将催生出更大更多的大数据产业经济,从而提升社会整体经济。