浅谈大数据与区块链技术发展趋势

作者:姚镜仪分布式资本  时间:2020-03-20  分类:区块链Blockchain新闻  

  “你想象一下,有人在一个洞穴式的地下居所里,它的入口是朝上开着的,亮光可以从上面照进来。这些人从孩童时就被捆缚在这里面,他们只能待在原地,连头都不能转动。但是他们有光,这光是从他们上面和他们后面的远处燃烧着的火那里发出来的。在火光和这些被囚禁的人之间有一条从上面延伸下来的路,沿着这条路有一堵墙。有些人手里拿着各种器皿举过墙头并沿墙走过,很自然,有人在走过时会说话,而另一些人则默默无语。”

  ---柏拉图

  浅谈大数据与区块链技术发展趋势

  在过去的十天里,突如其来的全球资产暴跌,伴随着海外疫情的进一步扩散,恐慌已被放大到了极致,直至今日在各国央行集体出手拯救流动性的局面下,美元指数才回落,大类资产价格暂时止住颓势。面对市场的博弈,体现在每个个体身上,都是一场关于欲望、意志和理性的战争。我们在见证历史,也在参与历史,然而历史却从来都是在不断上演的意外和重复中前进的。公元前311年,高加米拉平原曾发生过人类历史上最惨烈的战役之一,亚历山大和大流士的殊死一战中,古代世界最强大的波斯王朝却倒在了希腊人的脚下。2009年,“Chancellor on brink of second bailout for banks”,同样的剧目今日再次上演,可见,太阳底下并没有新鲜事。

  

  言归正传,在生产力不断迭代的背景下,伴随着移动互联网的渗透与普及,物联网、云计算和AI的发展,大数据在传统行业的应用过程中,数据产生的速率均呈现出了指数级的增长。大数据是万物互联的重要基础,也是数字经济实现过程中的核心生产资料。在我国十九届四中全会中明确提出将数据与资本、土地、知识、技术和管理并列作为可参与分配的生产要素,这体现出数据在国民经济运行中变得越来越重要,数据对经济发展、社会生活和国家治理正在产生着根本性、全局性、革命性的影响。

  

  而在即将到来的5G时代中,除了急剧膨胀的数据量,数据的维度也会更加丰富,场景更细分,用户的需求也就更复杂,因此对于跨平台的要求会进一步提升,大数据需要与与物联网、云计算、区块链和人工智能有机结合,共同支撑新场景下的业务需求。

  

  关于大数据(Big Data)的定义众说纷纭,从技术特征上可以理解为数据量大(volume)、数据类型多(variety)和数据处理和响应速度快(velocity)。麦肯锡对“大数据”的定义是超过了常规数据库软件所能搜集/存储/管理和分析的规模的数据集。大数据处理技术可以认为是处理大数据以便从中获取价值的技术总和。大数据及其技术正在影响着IT产业,利用Hadoop和关系数据库来解决大数据难题是当前通常采用的方法。然而大数据技术与传统技术最大的差别体现在,它们并不是为了通用的需求去设计,而是不同的厂商按照自己的特定需求或细分市场设计的,用户在应用的时候需要结合自身需求进行技术选型。这点与区块链技术有着相似之处。

  

  这些年以来,大数据的底层技术越发成熟,在早期,技术方案更侧重在庞杂的数据量上,Apach Hadoop通过定义最基础的分布式批处理架构,打破了传统数据库的模式,将计算和存储分离开来,同时数据集群的存储成本也更低。Hadoop友好的社区生态和技术上可扩展的优势,对大规模并行处理的MPP造成一定影响,不过现在MPP在扩展性能上也有不断突破,在大数据处理领域仍具有关键地位。

  

  随着大数据的进一步发展,Hadoop庞大的运维操作生态中,MapReduce的处理效率问题也逐步显现,于是出现了Apach Spark的计算架构。而更侧重于数据处理时效性的Apache Flink、Kafka Streams、SparkStructured Streaming等产品也为之后的流处理框架打下了基础。大数据技术产品在不断迭代和细化,为适应不同的应用需求,开源社区中形成了丰富的技术栈,覆盖存储、计算、分析、集成、管理、运维等各个方面。据统计,目前大数据相关开源项目已达上百个。

  

  未来大数据的演化趋势

  

  1、数据资产化

  “数据资产”概念的兴起主要来自大数据浪潮中信息和数据的普及。信息资源诞生于计算机科学,被视为与人力资源、物质资源、财务资源和自然资源同等重要的资源,在信息时代的组织管理中尤为重要。数据资源是上世纪90年代伴随着数字化办公数字化产业转型等业务场景而产生,是指能产生规模效应并具备含义的数据集所形成的资源。而数据资产是在前两者的基础上,于本世纪初期大数据技术兴起的背景下产生的,并随着数据管理和数字经济的发展而呈现出明显的发展趋势。

  

  最早的数据是以文件的形式保存在磁盘里,而这些存储的文件就是早期数据资产的呈现形态。后来出现的数据库和数据仓,同时可以支撑一定的企业经营管理和和分析决策。而到了大数据时代,随着分布式存储、计算和多种算法的应用,结构化数据之外的数据也被纳入到数据资产的内涵,将海量的标签库、知识图谱、图片、视频等内容都包括在内。

  

  在数据资产化的的背景下,数据资产管理也在数据管理的基础上更进一步,主要体现在视角不同以及管理功能和职能不同。数据管理的立足点是防范并解决数据管理漏洞所带来的损失,而是数据资产管理则更强调如何利用数据资产为企业带来更多增值。传统数据管理的管理职能包含数据标准管理、数据质量管理、元数据管理、主数据管理、数据模型管理、数据安全管理等,而数据资产管理针对不同的应用场景和大数据平台建设情况,增加了数据价值管理和数据共享管理等职能。甚至企业的组织架构和管理制度也要有所变化,需要更专业的管理工具。

  

  在行业实践中,数据资产管理的工具经历了三个阶段,最早期是通建立数据仓解决报表的经营分析的准确性;第二阶段是从分析延伸到生产,在数据库中开展数据治理,进行数据标准管理和数据质量管理。然后企业数据可以汇总到大数据平台,形成数据的采集、加工、计算和分析等配套工具,建立元数据管理、数据安全管理等机制,支持开发创新工具或应用;而目前的的数据资产管理已经进入到数据资产运营阶段,数据也成为了企业的核心生产要素。像DCMM数据管理能力成熟度模型这类评估工具也开始出现。

  

  数据资产管理工具就成了重要且刚需的落地方式,但是由于这块技术上并无可参考模板,开发者多根据实践经验设计架构,而企业的实际需求各不相同,最后导致数据资产的管理工具虽然以各个功能模块的集成为主,但是形态上差异非常大。

  

  随着数据量的增加和数据应用场景的丰富,数据间的关系变得更加复杂,问题数据也隐藏于数据湖中难以被发觉。智能化的探索梳理结构化数据间、非结构化数据间的关系将节省巨大的人力,快速发现并处理问题数据也将极大的提升数据的可用性。在数据交易市场尚未成熟的情况下,通过扩展数据使用者的范围,提升数据使用者挖掘数据价值的能力,将最大限度地开发和释放数据价值。因此未来的数据资管工具将向着智能化和灵敏化的方向发展,甚至可以自助服务的方式对数据价值进行更深的开发。

  

  2、技术发展融合化

  

  算力的来源更多,范围更广

  在移动互联网和云计算的高歌猛进中,应用场景细分且多样化,数据平台开始承载更多的计算任务,例如AI、物联网、视频转码等。同时数据的复杂度更高,颗粒度更细,并且对于并行强度、内存占用、高带宽以及高实时性的要求显著。因此,以CPU作为基层硬件的传统技术逐渐体现出性能制约的技术瓶颈,

  

  流批处理相互融合,平衡发展

  流处理侧重于对即时信息的批量化处理,计算出反映热点的实时动态变化。而批处理的工作环境发生在离线,更侧重于对历史数据的累加反馈。虽然lambda, 流批融合的计算方式正在成为不可阻断的趋势的方向,一直呈更丰富的大数据处理要求。

  在实时监控,风控预警等场景下,例如今年爆发的大规模疫情的防控,流计算对于数据加工的实时性有着严苛的要求。

  

  对海量实时数据的即时决策需求

  传统的数据库业务在技术选型时,往往是根据具体场景进行选择。当应用面对高并发需求的客户并要做出快速响应时,通常选择面向Transaction的数据库;当应用需要多维度对数据进行分析,一般选用Analysis数据库。而眼前我们随着数据运营对业务发展的驱动更加精细,需要对海量的实时数据进行分析。Transaction和Analysis虽然在业务上强关联,但是技术上在数据模型、存储模式和响应效率都存在区别,很容易造成资源的重复存储。Gartner曾提出一个新的混合事务/分析处理(HTAP)架构,实现对单一数据源上的同时处理,然而改方案并没有从根本上改变数据存储的模式,只是在不同的功能侧重之间进行trade-off,所以只能最大程度缩短时延迟,并不能实现在一个系统里避免数据转存的同时处理交易和分析。

  

  从“云改造”到“云原生“

  随着各大云厂商开始构建自己的云上数据产品,满足差异化的用户需求,大规模可扩展的数据库服务也纷纷开始上云,来为PB 级(1PB=1024TB)的数据集提供分布式数据库服务,比如 Google Big Query、AWS Redshift、阿里云的PolarDB、腾讯云的Sparkling 等等。因此大数据的基础设施早已开始向云上进行迁移。

  

  在早期上云的过程中,大数据产品只是简单的云化改造,受制于硬件维护和网络,用户不能专注于数据层和业务逻辑。而“云原生“是只整个构建和运行应用程序的方法从设计之初即考虑到云的环境,原生为云而设计,在云上以最佳姿势运行,充分利用和发挥云平台的弹性+分布式优势。

  

  与更多先进技术多方位深度整合 .

  当下,随着大家对于数字经济的数据的更多了解,作为万物互联的基础设施,大数据与其他先进的下一代信息技术实现多方位的深度整合,也是目前大数据领域最受关键的趋势之一。通过更加智能的算法来分析和管理数据,释放更高利用率的数据价值,也促成了大数据平台和机器学习平台的深度整合。经过治理后的大数据,更是与人工智能体现出一种更深的相辅相成的关系,因为数据治理的输出相当于人工智能的输入。一方面人工智能提供了高质量的合规数据,另一方面,AI本身也能使得数据治理的过程变得更加智能。

  

  3、数据安全合规化

      整个大数据行业发展过程中,一直有个如影随形的问题,就是数据的安全与合规问题。2019 年9 月,多家征信企业分别被警方带走调查,市场猜测可能与爬虫业务有关。大数据安全合规使用以及信息安全保护的问题甚嚣尘上,成为关注的热点。

  

  狭义的数据安全主要是指传统的信息安全,即以数据作为内涵,信息系统作为载体,通过安全技术尽可能的保障数据的私密、完整和可用性。而广义的信息安全,会覆盖整个数据的生命周期,数据采集阶段对敏感数据的鉴别发现;分类分级标签、质量监控;存储加密、灾备;数据处理中的脱敏、安全多方计算、联邦学习;数据删除后的安全副本销毁,以及穿插在整个过程中的用户权限管理、传输校验与加密、监控审计等等。

  

  在2019年6月发布的我国《数据安全管理办法(征求意见稿)》中,明确要求了对于个人信息的提供和保存要经过匿名化处理。静态的数据脱敏技术可以保证数据对外使用过程中不涉及敏感私密信息,是有效实现数据匿名化处理的手段。在动态处理过程中的脱敏技术可以保证在数据服务接口实时返回数据请求并不泄露敏感信息,可以在开发测试环境中对敏感数据集进行挖掘分析。除了技术上的发展,将来数据相关法律监管会日趋严格规范,合规要求落地,安全标准的规范体系不也会断完善。

  

  大数据与区块链结合的机会与挑战

  

  机会

  1、IT重构中的技术叠加和产品成型

  在此轮全球数字经济热潮中,伴随着世界格局的不确定性和产业结构调整等多重因素,整个IT产业会从硬件、软件、场景和业务形态会发生根本性的改变。可以说新时代信息技术的发展的核心逻辑是重构,重构技术、重构产品、重构市场和竞争格局。大数据技术和区块链技术很大的相似之处在于都是为实现更高目标价值而集成的底层技术的总和,如果把大数据技术起始定义为2004年Doug Cutting正是用Java对GFS和MapReduce 实现开源,将区块链定义为2009年比特币白皮书发布为开始,这两套技术都属于全新的技术体系,而在最早期的技术方案和框架之上,会不断叠加和集成更多新技术,例如前文提到的大数据技术发展融合化的各种趋势,区块链网络上后来发展起来的智能合约、分片、跨链通信等等,在新的应用场景中原有的技术架构体系也会不断升级迭代,深证融合成为全新的产品形态。

  

  2、全新的业务模式,数据运营商

     未来的信息世界,数据来源更多样化也更分散。当技术上可以有效突破安全存储、隐私保护、对于多元异构数据的高通量计算效率等现实制约,用户终端仅需要授权,在不泄露原始数据的情况下输出计算的结果和模型。数据托管与运营的商业需求也将应运而生。而区块链技术对于多节点网络的协作与激励,会进一步完善网络价值交换系统。随着法律法规的逐步完善,持有牌照的数据运营商,将在电信运营商经营信息资源的基础上进一步细分出来,出现以可信计算平台作为基础的数据运营商系统。

  

  3、物联网引领第三次信息浪潮,构建全新产业生态

  

     随着5G时代的来临,人们对于信息传输有着更高的要求,而技术上泛在连接和低时延的特点,与算力来源多样化的趋势,使得通过物联网实现万物互联成为可能。在物联网引领的新一轮信息建设浪潮下,5G和大数据分别承担了传输和生产的任务,区块链技术的去中心化、不可篡改、可追溯等特性,适合用于解决跨利益主体之间以及机器与机器之间的互信问题。以物联网作为基础,下一代信息技术会共同融合构建产业新生态。

  

  受限与挑战

  

  同样,任何事物的发展都会有自己的周期,而所谓发展是一个动态的过程,受制于各类因素的制约,例如可信计算的发展不达预期、数据确权的法律法规与估值体系不完善、数据交易市场不成熟,等等。

  

  然而,就如开头引用的柏拉图“洞穴之喻”,也许我们看到的都不是真相,但并不妨碍我们追求真理。

  

  

  

  

版权信息
作者:姚镜仪分布式资本
来源:分布式资本

关于我们

联系我们

作者进驻

公众号

Copyright © 2013 比特巴 www.btb8.com
只为您提供客观公正有用的比特币 区块链 加密数字货币新闻、技术教程、行情分析、行业人物资讯
手机版