实现具历史意义的技术一跃 刘睿民:中国正成为数据库语言领域国际标准制定主导者

发布时间:2022年06月23日
       北京报道, 工信部电子工业标准化研究院网站4月6日发布消息称, 我国首个大数据领域国际标准提案近日通过专家论证, 认为这代表中国大数据领域国际标准化工作取得重大突破。 , 提升我国在数据库语言领域的标准话语权。研究院与北京百瑞数据技术有限公司共同提出的《SQL对MapReduce及其相关流数据处理的支持》国际标准提案也被认为是我国自主提出的第一个SQL标准国际标准提案。 , 目的是扩展数据库语言SQL标准, 支持流数据处理和大数据应用。据悉, 该提案于2015年10月在日本东京召开的ISO/IEC JTC 1/SC 32/WG 3数据库语言工作组会议上提出时, 得到了WG 3召集人和与会专家的高度肯定。 WG 3鼓励中方代表继续开展SQL标准扩展以支持流数据及相关技术的研究, 进一步完善提案,

力争尽快启动ISO/IEC JTC 1/SC 32的标准制定工作尽可能。下一步, 工信部电子工业标准化研究所将尽快完成提案国内审批程序, 并在6月SC32全体会议上正式向秘书处提交提案。
        2016. 业内人士表示, 随着大数据时代的到来, MapReduce作为主流的数据处理方式已经应用广泛, 但其编程过程繁琐, 流数据的处理缺乏标准化操作。同时, 由于目前的 ISO/IEC 9075 数据库语言 SQL 标准不支持流式数据, 一些大数据解决方案公司为了使用 SQL 标准来处理流式数据, 开发了多种解决方案, 让 SQL 程序员需要了解各种解决方案和相关用法, 增加了大数据系统的开发难度, 降低了大数据系统的开发效率。该提议通过将 MapReduce 方法合并到 SQL 标准中,

使 SQL 程序员可以通过标准 SQL 语言轻松使用 MapRedece。符合该标准的大数据平台将大大降低大数据系统的开发难度, 显着提高大数据系统的开发效率。接受《华夏时报》采访的业内知名专家、北京百瑞数据科技有限公司董事长刘瑞敏认为, 划时代的RapidsDB是中国本土企业在该领域的零突破。基于RapidsDB的独特优势, 中国正在从数据库语言领域国际标准制定的参与者转变为协调者和引领者。 - 这是一个历史性的技术飞跃。技术标准是大数据安全的保障 《华夏时报》:您如何看待大数据相关领域技术标准的国内外现状?刘瑞敏:目前国际上有四大标准化组织专门从事大数据的研究。 ISO/IEC JTC1 SC32于2012年确立下一代分析技术与大数据研究组于2014年6月启动了4个新的工作项目, 为大数据提供标准化支持。该组织的重点研究对象包括元数据、大数据存储和检索以及大数据支持的复杂数据类型。 ISO/IEC JTC1 SC2正在进行大数据标准的研究和研究。 2013年11月成立大数据标准化研究组, 2014年提交大数据相关技术和标准以及JTC1在大数据标准制定中的需求研究报告。 ITU-T专注于基于大数据的云计算相关技术研究。 2013年11月, ITU发布了《今天大数据巨大, 明天正常》的技术观察报告, 分析了大数据面临的挑战和ITU-T的发展。标准化工作, 目前, 组织启动了新的工作项目“基于大数据的云计算需求与能力”。 NIST于2013年成立大数据公共工作组(NBD-PWG), 其重点研究对象包括术语和定义、用例和需求、安全和隐私、参考架构和技术路线等, 目前有这些方面的草案.关于我国大数据标准制定发展, 中国电子标准化研究院(以下简称电子标准化研究院)发布的《大数据标准化白皮书》(以下简称《白皮书》)指出国家信息技术标准化技术委员会(TC28)继续开展数据标准化工作, 促进元数据、数据库、数据建模、数据交换与管理等相关领域的发展。相关标准的制定和应用, 为提升跨行业数据管理能力提供了标准化支撑。具体来说, 国家信标委员会于2012年成立了非结构化数据管理标准工作组, 对应ISO/IEC JTC1 SC32 WG4。国家信标委员会云计算标准工作组目前正在开展大数据存储与分析应用研究工作, 旨在研究大数据存储与分析技术的应用分析、技术框架和标准研究。国家信标委SOA分技术委员会负责面向服务架构(SOA)、Web服务和中间件的专业标准化工作, 协助国家信息技术标准化技术委员会承担相应分技术的国内联络点- 国际标准化组织的技术委员会。工作。此外, 全国信息安全标准化委员会(TC260)是信息安全技术专业领域从事信息安全标准化工作的技术工作组织。委员会负责组织开展与国内信息安全相关的标准化技术工作。技术委员会的主要工作范围包括:安全技术、安全机制、安全服务、安全管理、安全评估等领域的标准化技术工作。国家信息安全标准委员会目前正在开展大数据安全技术、行业和标准的研究, 为大数据安全提供支撑。数据仓库标准是行业标杆。 《华夏时报》:工信部为何选择与您和百瑞合作?刘瑞敏:回国前, 我在硅谷Tandem公司师从图灵奖得主Jim Gray。我参与了 Tandem NonStop SQL/MP 的内核编写。 Tandem的MPP分布式数据库在欧美高端市场依然处于领先地位。此外, 我还曾在惠普实验室从事大规模并行内存数据库开发, 并担任惠普大中华区数据挖掘总监和SUN/ORACLE大中华区服务总裁。但我觉得, 虽然凭个人能力可以做出高质量的产品, 但很难推动上下游产业的合作与发展。任何行业层面的影响力都离不开长期的深厚积累。从事数据库领域20年, 深谙这股大数据革命浪潮的颠覆性本质。传统的关系数据库无法处理海量数据的处理和分析。随着新窗口期的开启, 数据库领域进入战国时代, 各种列式架构、内存架构、NoSQL、NewSQL等新型数据库层出不穷。百瑞数据在国内首创的MPP内存数仓,

被认为是中国数仓领域的“诺曼底反击”, 近日完成近千万美元融资。百瑞数据近日荣获“2015中国软件与信息服务大数据最佳产品奖”。百瑞数据推出的Rapids Hadoop、Rapids DB、Rapids MGrid、Rapids Manager等产品为客户提供从大数据存储到分析挖掘的完整解决方案, 技术研发实力位居国内前列.百瑞数据将在国家标准方面做更多的工作。数据仓库的标准是整个行业的标杆。只有树立正确的标杆, 才能更好地促进国产数据库的健康发展。企业级的产品性能和服务是基础。 《华夏时报》:您如何看待百瑞提出的相关领域数据库国际标准提案的技术和市场意义?刘瑞敏:以RapidsDB内存数据库为例。它是一个分布式的、纯内存中的大数据处理平台。基于大规模并行处理(MPP)计算架构, 它是一个用于在线分析服务的内存数据库。低成本的标准服务器资源形成线性可扩展的计算集群, 高效处理标准SQL语句组成的各种复杂查询分析请求, 实时分析结构化、半结构化和非结构化数据, 为企业提供快速的服务策略支持。它的出现突破了传统的基于磁盘的数据仓库技术, 解决了传统数据仓库难以分析结构化以外的数据的问题, 通过高性能、线性扩展和集成的解决方案为企业带来显着效益。可帮助用户进行超高速数据查询、分析和处理, 在金融、电信、电力、游戏、广告、交通等领域具有广阔的应用前景。从历史上看, MPP内存数据仓库市场一直被少数海外公司垄断。 RapidsDB的诞生, 标志着“中国智造”再次打破技术壁垒, 在世界大数据存储和实时分析领域发布了属于自己的产品。声音。技术现已成为硬门槛 《华夏时报》:您对技术和市场的发展趋势有何判断和预测 刘瑞敏:首先, 数据库领域正处于窗口期, 许多新机遇正在涌现。 IBM和HP都在坚持自己的小电脑, 但用户不再想要小电脑, 巨头们也解决不了大数据的问题。以前结构化数据占99%, 现在只占1%。
       从趋势上看, 巨头们擅长的网站一下子变成了一个小市场。百锐的产品不仅可以处理非结构化和半结构化数据, 还可以替代结构化数据中的巨头。其次, 产业发展有自己的周期, 数据库领域的龙头甲骨文已经走到了尽头。甲骨文的核心技术诞生于30年前, 但到现在为止, 甲骨文并没有修改核心架构, 只是做了一些外围的修复。这种单节点共享内存架构无法支撑大数据时代的快速扩展。第三, 在国内的企业级市场, 已经不可能简单的一起拼了, 数据量一下子暴增了1000倍。以往的IT架构已经无法支撑如此大容量的数据处理, 技术成为硬门槛。这股基于云和大数据的革命浪潮将形成一个完全不同的、非常开放的生态系统。第四, 云服务普及后, 技术可以部署在云上。从市场角度看, 由于长尾效应, 无法负担这些服务的中型客户可以按时按需付费。这些中型企业也希望取代旧的行业龙头, 所以他们非常愿意在互联网上购买服务。历史性技术飞跃 华夏时报:您对国内引入大数据相关的技术发展政策有何建议?刘瑞敏:要加强我国在数据库研发领域的理论研究积累和人才培养。但是, 十几年不掌握产业链最核心的技术是不可能做到的, 也没有研究机构或机构在这个领域继续跟踪, 所以只能从实际出发, 讲讲如何使用Hadoop。操作方面。相比之下, 国外从1970年代开始就积累了各种数据库架构设计。加州理工学院、加州大学圣巴巴拉分校、威斯康星大学等高校拥有专业的部门研究数据库,

并继承了知识。即使有这些积累, 美国在全球数据库领域的核心人才也不超过200人。核心人才的定义一定是做过SQL解析器、执行器、优化器、文件系统的最技术性的东西。即便是在Oracle、SAP、Sybase等公司, 真正接触过数据库核心引擎设计的人最多也就十几个人, 更多的是围绕核心编写一些外围功能。数据库核心人才的培养需要一个过程。从上层工具开发到底层, 我们需要先做解析器, 再做执行器, 最后做优化器,

一步一步来。表之间JOIN,

应该采取什么样的执行计划, 中间的解析路径和优化路径如何设计, 低级文件系统如何读写合作需要10年甚至20年的工程积累。没有这些积累, 只能做一些数据处理工作, 根本轮不到你做底层开发。一个国家在大数据时代的竞争发展优势在于分析海量数据, 并将其转化为对社会有价值的产品。目前, 虽然中国初步具备了这种能力, 但仍有巨大的空间。因此, 政府决策部门应尽快设立首席数据官一职, 这将有助于国家宏观战略决策和各种数据不一致导致的应用管理。很多问题都解决了。如果大数据应用形成一个生态系统, 在数据库和数据处理方面, 包括中间件, 可能会有基础软件升级需要解决, 这可能会导致国内一些大型基础软件公司的出现, 它们将与甲骨文公司、SAP 公司和其他国际巨头竞争。从应用软件的角度来看, 中国可能有一些突出的应用。在虚拟现实和自动驾驶领域, 国内可能也有一些大公司。但也需要大量的积累。 《华夏时报》:RapidsDB内存数据库的匠心之作, 对于中国大数据转型时代有何意义?刘瑞敏:2013年, 我们团队开始研究很多人认为“高不可攀”的大数据MPP内存数据仓库引擎, 最终诞生了划时代的RapidsDB, 对中国本土企业来说是零突破在这个领域里。 RapidsDB不仅全面改善大数据服务现状, 还为急需战略转型的用户提供服务。它们创造了升级的机会, 也促进了中国大数据服务业的成熟。
       在“中国制造”向“中国制造”的过程中, RapidsDB可以帮助更多的企业体验新的大数据服务, 迎接“互联网”时代的到来。为降低大数据系统开发难度, 提高开发效率, 基于RapidsDB的独特优势, 中国正在从数据库语言领域国际标准制定的参与者向协调者和引领者转变。
        ——这应该是一次历史性的技术飞跃。