您的位置:甘肃IT在线 > 互联网

实时性数据分析需求暴增,偶数湖仓一体为企业助力

发布时间:2023-12-24 06:12:25  来源:互联网     背景:

  在愈发复杂的大数据场景下,数据仓库与数据湖各自的弊端开始显现,湖仓一体架构走向舞台中央。在国外有两种流行的实现数据湖仓的技术,他们分别是基于数据仓库和基于数据湖的解决方案,他们的代表分别是Snowflake和Databricks。 去年11月,双方曾就两者性能差异吵得不可开交,作为大数据分析赛道的代表性厂商,不论是具备数据仓库功能的数据湖工具Databricks,还是借鉴数据湖范式的可扩展数据仓库Snowflakes,其发展路线都说明“湖仓一体化”已成为了目前市场主流的技术发展方向。

  虽然业界对于湖仓一体的价值是高度认同的,但作为一种新兴的架构,大多数公司对于湖仓一体仍处在初期的探索阶段,有些企业甚至对于要选择怎样的湖仓一体架构仍旧是云里雾里。很多人难免会问,我们到底需要什么样的湖仓一体?

  1 当下企业实时性数据分析需求暴增

  随着网络的高速发展,产生的数据也爆炸性增长,企业对数据的使用也逐步从离线场景到实时数据分析场景的转变。刚开始,很多企业主要是利用离线场景对历史数据进行分析,而随着业务发展到一定规模以后,离线数据的缺点就愈发凸显,公司的业务方、决策方对实时化数据提出了更高的诉求,希望从业务端获取到数据以后,便能够立即被清洗处理,从而满足基于数据的事前预测、事中判断和事后分析。

  实时数据分析的需求场景一般分为四个层面:

  运营层面:实时业务变化、实时营销效果、当日业务趋势分析;

  用户层面:搜索推荐排序、实时行为等特征变量的生产,为用户推荐更精准的内容;

  风控层面:实时风险识别、反欺诈、异常交易等;

  生产层面:实时监控系统的稳定性和健康状况等。

  不难发现,无论是互联网企业还是传统企业,数据的时效性都被摆在了重要位置,甚至有些企业已经从 PV、UV 指标等单点实时化进阶到了全面实时化的阶段。也正于因此,数据的时效性也就成为了企业判断自身架构设计是否满足真正湖仓一体的关键因素。

  总体来看,企业到底需要怎样的湖仓一体架构?除了要满足实时化数据需求这一关键要素以外,数据一致性、超高并发、云原生、支持多类型数据以及一份数据也被列入了湖仓一体的 ANCHOR 六大特征。

  2 基于OushuDB的云原生湖仓一体

  如前文所言,随着市场竞争和用户需求的不断变幻,企业对于数据的时效性需求不断攀升,但实时数据的分析场景出现以后,也给数据技术的实现带来了很大的挑战。目前,无论是擅长事务型工作的数据仓库,还是数据类型更为丰富的数据湖,亦或是 Hadoop+MPP 模式下的湖仓分体,其都是基于 T+1 设计的,即便引入了流处理引擎实现了部分固定模式的实时分析,仍无法达到 T+0 全实时的水平。

  为了让数据实现全面实时化,行业内也衍生出了不同的湖仓一体方案,可以将其大致分为两类:一类是基于 Hadoop 的改造方案,拿 Hudi、Iceberg 两款开源数据湖项目为例,结构化、半结构化及非结构化的数据通过 SparkSQL/Flink 引擎不断流转与计算,再基于 HDFS/S3 实现事务存储,但此类方案在性能支持上与 Hadoop 的区别并不大;

  另一类则是从新的基础架构发展出的云原生数据仓库,其中比较典型的代表有 Snowflake、OushuDB 方案,二者均突破了传统 MPP 和 Hadoop 的局限性,实现了存储和计算的完全分离,并且通过虚拟计算集群技术,其单个集群可以达到数万节点,同时在复杂查询性能和 SQL 兼容性上也非常完善。在国外,Snowflake 可以算作落地湖仓一体的成功先例之一,而偶数科技围绕 OushuDB 提出的湖仓一体解决方案,也成为国内该赛道中的一颗耀眼的新星。

  若想了解 OushuDB 性能的强大之处,我们大抵可以从以下这组公开数据中窥知一二:由于 OushuDB 使用了 SIMD(单指令多数据流)的执行器优化策略,其全面性能超过 Spark 性能相差 8 倍以上,最大相差 55 倍。通过横向对比几类湖仓一体解决方案,我们发现,在 T+0全实时方面,基于 OushuDB 的方案也展现出了较大的优势。

  3 为什么偶数科技的实时湖仓性能卓越?

  那么问题来了,偶数科技是如何实现具备实时能力的湖仓一体架构?我们可以先从 Lambda 以及 Kappa 这两种典型架构的优劣说起。

  为了能够让流处理与批处理配合使用,Lambda 架构应运而生,基于这套架构,任务可以根据是否需要被实时处理进行分离,然而,这套架构背后也隐藏了很多问题。首先,离线和实时两套方案会产生不同的计算结果,当发生数据产生不一致问题时,对比排查需要花费较长时间。此外,由于 Lambda 架构由多个引擎和系统组成,其学习成本、运维成本也相对较高。

  可见,Lambda 架构在开发割裂感、资源重复、集群维护成本以及数据一致性等问题上存在较大的问题。为了解决 Lambda 架构需要维护两套代码的难题,Kappa 架构又出现了,即在 Lambda 架构的基础上移除了批处理层,利用流计算的分布式特征,加大流数据的时间窗口,统一批处理和流处理,最终处理后的数据可以直接给业务层使用。相比之下,虽然 Kappa 架构的优点显而易见,但其也存在以下两方面的缺点:

  依赖 Kafka 等消息队列来保存所有历史,而 Kafka 难以实现数据的更新和纠错,发生故障或者升级时需要重做所有历史,周期较长;

  Kappa 依然是针对不可变更数据,无法实时汇集多个可变数据源形成的数据集快照,不适合即席查询。

  面对 Lambda 架构与 Kappa 架构的局限性,业内也亟需一种新型技术架构来满足企业的实时分析需求。为此,偶数科技在 2021 年初提出了同时满足实时流处理、实时按需分析以及离线分析的 Omega 架构,其是根据流数据处理系统和实时数仓构成的。

  需要强调的一点是,在 Omega 架构中需要变更流处理版本时,不再需要流处理引擎访问 Kafka,直接访问 OushuDB 即可获得所有历史数据,这样一来,便规避了 Kafka 难以实现数据更新和纠错的问题,大大提升了数据处理的效率。在 Omega 全实时架构的加持下,偶数科技实现了具备实时能力的湖仓一体,即实时湖仓。

  4 行业的广泛认可与偶数的持续创新

  尽管OushuDB只是一个诞生5年的云数据库,但OushuDB却是由国内顶尖工程师自主开发,其研发团队曾主导国际顶级的数据库开源项目,符合国家信创标准。偶数科技作为一家新兴的数据库公司,自2017年诞生以来,作为微软加速器和腾讯加速器成员企业,已经获得世界顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资,并入选福布斯中国企业科技 50 强以及美国著名商业杂志《快公司》中国最佳创新公司 50 强。

  除了OushuDB,偶数科技的实时湖仓一体解决方案还包含自动化机器学习平台 LittleBoy 、数据分析与应用平台Kepler以及数据管理平台 Lava等多个产品, 深厚的研发实力和优秀的产品性能吸引了广泛的知名用户群,目前已在金融、电信、制造、公安、能源和互联网等行业得到广泛的部署和应用。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。


返回网站首页

本文评论
将泡泡战进行到底,vivo趣炫泡泡跑第二站顺利落幕
夏末秋至,在这个余热未退的初秋季节,由vivo、京东手机和迪信通三方举办的vivo趣炫泡泡跑南京站顺......
日期:09-24
洞悉6大新变化 07上半年手机市场盘点
07上半年新机叠发景象繁荣 技术不断创新 不知不觉2007已经过半,在这忙碌的上半年手机市场风云变幻,我们经历过N95的苦苦等待,经历了U1000的震撼上市,然而最吸引人们眼球的,还...
日期:12-22
6大系列12款机型 索尼数码相机全降价
要问小编现在市面上什么品牌的数码相机卖得好?我一定会告诉你是索尼。因为它的几大系列产品都有很明确的市场定位,产品线划分也特别合理,特别是今年的新款T系列、W系列和H...
日期:12-19
Ladycare/洁婷 卫生巾超值套装 15包(日100片+夜20片+超长夜12片) 59.9元
Ladycare/洁婷 卫生巾超值套装 15包(日100片+夜20片+超长夜12片) 59.9元 Ladycare/洁婷 卫生巾超值套装 15包(日100片+夜20片+超长夜12片) 59.9元去京东购买京东自营限时抢购...
日期:12-17
易有料知识官:资深私域专家郑鹏飞,揭秘千人私域团队搭建及管理方法
  千人私域团队操盘手、千霖科技CEO郑鹏飞,正式加入“有料知识官”行列!郑鹏飞拥有丰富的私域流量运营实操经验,擅长搭建精细化私域运营体系以及标准流程SOP设计和优化。本期...
日期:12-17
3K价位性能王者 Redmi智能电视X 2022款评测
去年Redmi正式推出了智能电视X系列,凭借着“同价高配”的产品理念得到不少消费者的好评,也成为智能电视的销量爆款,而且在提供出色的画质、音质表现的同时,还搭载MEMC运动补...
日期:12-21
轻薄双色:iPad 2平板官方图片抢先看
泡泡网资讯频道3月3日 iPad2终于顺利发布惊艳亮相。具备黑白双色,配备A5双核处理器,双摄像头,处理器性能提升2倍,显卡性能则提升9倍。厚度从13.4mm减少到了8.8mm,减少33%,重量...
日期:12-19
小黄狗环保科技:用公益推动垃圾分类习惯养成,重建新文明
一颗鸡蛋能做什么?也许在很多人眼里是普通的不能再普通的食材。在小黄狗环保科技的公益宣传片里,这......
日期:05-10
抖音VS快手:从产品理念来看短视频的功能设计
一、调研背景和目的 1.调研背景 短视频是指以新媒体为传播渠道,时长5分钟以内的......
日期:09-30
最强Android平板!三星P7510报价3188
泡泡网平板电脑频道9月30日 三星P7510的机身厚度仅有8.6mm,采用了10.1英寸PLS电容式多点触摸屏幕,搭载了NVIDIA Tegra2双核处理器,目前了解到三星P7510的较新商家报价仅为3...
日期:12-19
奥美
  奥美王中王总决赛日前已进入倒计时,各项工作正在紧张有序的进行。王中王总决赛场地除已经确定的DNA数码大厦和乐库外,又新增了位于北京市朝阳区安华里504号的网中游上网服...
日期:12-20
最美1000张脸,究竟谁才是颜“智”担当
核心提示: 9月19日,一个诺大的魔幻箱子空降上海大悦城,引来大量路人的围观,这个魔幻箱子究竟将......
日期:09-26
新设计性能更出色 小米手机2全面评测
泡泡网手机频道9月21日 小米手机2在8月份发布之后就一直受到很多用户的关注,与小米手机1代相比,小米手机2有了更大的进步,但是价格却仍维持在1999元,这一点是非常值得肯定的...
日期:12-22
移动互联网时代的创新
(原标题:互联网江湖辈分:谁是弄潮儿?) “手机键盘、触控笔?不存在!”在莫斯......
日期:09-30
6大系列12款机型 索尼数码相机全降价
要问小编现在市面上什么品牌的数码相机卖得好?我一定会告诉你是索尼。因为它的几大系列产品都有很明确的市场定位,产品线划分也特别合理,特别是今年的新款T系列、W系列和H...
日期:12-17
3K价位性能王者 Redmi智能电视X 2022款评测
去年Redmi正式推出了智能电视X系列,凭借着“同价高配”的产品理念得到不少消费者的好评,也成为智能电视的销量爆款,而且在提供出色的画质、音质表现的同时,还搭载MEMC运动补...
日期:12-23
Android 2.2 摩托罗拉MB525仅1800元
泡泡网手机频道8月26日 摩托罗拉MB525是面世以来最帅的三防手机,相比以前的三防产品,摩托罗拉MB525拥有 android2.2智能系统,并且硬件配置十分强悍,性能出众,此外,该机造型硬...
日期:12-22
专业监听设计 惠威D1010MKII音箱品鉴
泡泡网音频频道11月24日 惠威D1010MKII 08版音箱是一款入门级别的监听音箱,这款音箱音质音效表现令人震撼,一经上市便引起了极大的市场反应,这款音箱价格仅为410元,可以说是...
日期:12-19
双向翻盖3G魔方 联想双模手机P90w评测
泡泡网手机频道8月6日 用联想公司自己的话说,“魔方P90w手机是业界先进双模双翻设计的3G手机,是联想全年3G战略细分中的关键性产品。”所以说,无论这款产品在大家心目中的...
日期:12-18
马志强:五大特色打造青云SD-WAN产品核心优势
7月27日,Cloud Insight Conference 2018云计算峰会在北京举行。青云QingCloud宣布全面战略升级,打......
日期:09-25