-
Flink CDC + Hudi 海量数据入湖在顺丰的践行
所属栏目:[大数据] 日期:2022-06-26 热度:168
摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 顺丰数据集成背景 Flink CDC 实践问题与优化 未来规划 一、顺丰数据集成背景 顺丰是快递物流服务提供商,主营业务包含了时效快递、经济快递、同城配送以[详细]
-
高考结束 用 Python 来解析下哪里的高考是地狱级难度
所属栏目:[大数据] 日期:2022-06-25 热度:85
一年一度的高考,可以说是广大学子必经的磨练,正所谓十年寒窗苦,一朝天下知。而高考,也成为了当前中国最为广泛,最为公平的晋升之路,可以说考上了一个名牌大学,那么未来的道路会好走很多。 但是又由于我国幅员辽阔,各地的教育资源又不尽相同,从而导[详细]
-
新时代开源数据调度在1000+企业的进化之途
所属栏目:[大数据] 日期:2022-06-25 热度:57
近年来,随着互联网的飞速发展,业务量在短时间内呈现爆发式增长,对应的数据量快速从数百 G 涨至数百 T。无论数据存储还是数据调度,当前数据量已经远超处理能力的上限。若信息处理技术仍渐进式发展,数据处理能力的提升将远落后于指数级增长的数据量。[详细]
-
大数据平台核心架构图鉴 提议收藏
所属栏目:[大数据] 日期:2022-06-25 热度:200
大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。 所以我下面就按这张架构图上的线索,慢慢来剖析一下,大数据的核心技术都包括什么。 01数据采集 数据采集的任务就是把数据从各[详细]
-
做数据治理前 应该明白并避开的几大坑
所属栏目:[大数据] 日期:2022-06-25 热度:186
Gartner 的一项调查显示,超过90%的数据治理项目都以失败告终。 这个数据可能会劝退一大波正准备做或者正在观望数据治理的企业:既然这笔投资90% 的概率失败,那为什么要继续。 1. 目标不明晰 数据治理是一个复杂的系统工程,一个明确合理的目标,能让数据[详细]
-
如何管理高度可扩大系统中的元数据
所属栏目:[大数据] 日期:2022-06-25 热度:153
元数据过去对数据中心架构的影响很[详细]
-
数据分析常见的误区有哪几种
所属栏目:[大数据] 日期:2022-06-25 热度:50
数据分析常见的误区有哪些? 1、盲目的收集数据 一个正常运营的产品每天会产生大量的数据,如果把这些数据都收集起来进行分析,不仅会使工作量增加,浪费大量时间,很可能还会得不到想要的分析结果。作为一名数据分析人员,更不应该为了分析而分析,而是应[详细]
-
不良数据会造成更严重后果的几个原由
所属栏目:[大数据] 日期:2022-06-25 热度:94
现在回想起来,这是有道理的。当时不仅存在基础设施方面的挑战,而且使用网络的人并不多,网站也没有那么有价值。随着云计算、电子商务和SaaS的兴起,这种情况发生了变化,确保可靠性成为企业的关键任务,站点可靠性工程(SRE)应运而生。 数据如今处于相似[详细]
-
何为数据湖?用于大数据分析的大规模可扩展存储
所属栏目:[大数据] 日期:2022-06-25 热度:102
从那时起,数据湖技术不断发展,现在正在与数据仓库争夺大数据存储和分析的市场份额。各种工具和产品支持数据湖中更快的SQL查询,而全球三个主要云计算提供商都提供了数据湖存储和分析。甚至还推出了将治理、安全性和分析与成本更低的存储结合起来的数据湖[详细]
-
为啥云原生数据湖值得关注
所属栏目:[大数据] 日期:2022-06-25 热度:139
最近几年,数据湖正在被越来越多人提起,尽管各方对数据湖的定义并不统一,但这不妨碍企业纷纷下水实践,比如亚马逊、阿里、腾讯、华为等,都在探索建设数据湖。为何众多企业在数据湖是什么上还没有达成共识的情况下,就开始着手进军数据湖领域呢?一个可[详细]
-
大数据如何通过销售自动化创造更多的机遇
所属栏目:[大数据] 日期:2022-06-25 热度:93
大数据技术如今在各行业领域的业务方面非常重要。销售行业是受大数据影响最大的领域之一。仅在2020年,全球各地的企业就在营销分析上花费了28亿美元,这个数字每年都在大幅增长。 这就是数据分析将发挥重要作用的地方。销售公司可以仔细查看数据,了解渠道[详细]
-
具备可视化的数据不仅可以节流 还可以开源
所属栏目:[大数据] 日期:2022-06-25 热度:161
当数据团队在谈论具备可视化的数据和数据质量高的好处时,通常只会涉及数据不完整带来的负面影响:决策不力、收入流失,甚至降低客户的信任度。 Gartner预测,糟糕的数据质量使企业每年损失1290万美元,因此具备可视化的数据成为非常重要的选择。 如果公司[详细]
-
详解元宇宙的七层产业链
所属栏目:[大数据] 日期:2022-06-25 热度:136
详解元宇宙的七层产业链: 1. 体验层映射现实世界的生活场景 元宇宙中的体验并不是打造简单的立体空间中的沉浸感,它可以把人类生活场景的方方面面映射进数字世界。当物理世界数字化之后,体验可以变得更加丰富。元宇宙可以帮助人类拓展边界,在虚拟世界中[详细]
-
使用替代数据的五个隐性成本
所属栏目:[大数据] 日期:2022-06-25 热度:135
如今,替代数据源已嵌入到各个行业的企业业务流程中。根据Lowenstein Sandler 律师事务所2022 年的一项调查,92% 的投资机构(从对冲基金、私募股权到风险投资)都在以中等或很大的程度使用替代数据来为决策提供依据。受访者还预计,他们在 2022 年对替代数[详细]
-
2022年优秀预测分析工具和软件
所属栏目:[大数据] 日期:2022-06-25 热度:119
数据管理一直是企业面临的挑战。随着新的数据源不断涌入,使用合适的工具比以往任何时候都更为关键。预测分析工具和软件是完成这项任务的最佳解决方案。数据专家和商业管理者必须能够组织和清理数据,以启动这一进程。随后是对数据进行分析,并与同事分享[详细]
-
技术迷途者指南 我有问题 你有解吗
所属栏目:[大数据] 日期:2022-06-25 热度:166
在日常工作中,我们可能会遇到各种技术问题,比如运维、开发、框架、操作系统等领域,不同的技术人,碰到的难题也不尽相同。为了帮助大家更好的解决问题,51CTO技术交流群针对一些技术问题展开了深入的讨论交流。51CTO对其中精彩问答进行了整理,并通过文[详细]
-
挖掘互联网开放数据可带来巨大商业价值
所属栏目:[大数据] 日期:2022-06-25 热度:97
星巴克的门店选址方法 20世纪80年代末,美国星巴克公司董事会名誉主席霍华德舒尔茨(Howard Schultz)曾经在西雅图总部组建地产团队,专门研究咖啡门店的选址。 他们除了有着专业的地产团队外,还有地理信息系统进行数据化分析,从而决定开店位置和营销方式[详细]
-
区块链为大数据分析提供机会
所属栏目:[大数据] 日期:2022-06-25 热度:180
大数据能够获得实践应用并被各行各业青睐,最重要的原因还是大数据分析得出的结论具有指导意义,能够为行业决策提供数据统计基[详细]
-
Kafka 万亿级消息实践之资源组流量掉零故障排查分析
所属栏目:[大数据] 日期:2022-06-25 热度:167
Kafka 万亿级消息实践之资源组流量掉零故障排查分析: 一、Kafka 集群部署架构 为了让读者能与小编在后续的问题分析中有更好的共鸣,小编先与各位读者朋友对齐一下我们 Kafka 集群的部署架构及服务接入 Kafka 集群的流程。 为了避免超大集群我们按照业务维[详细]
-
大数据依赖不可取
所属栏目:[大数据] 日期:2022-06-25 热度:155
当下没有人会忽视大数据的重要作用。在生活的一切方面,大数据都潜在地发生着作用,特别是在管理层面,大数据已经成为重要的辅助工具。站在当前的角度来看,没有大数据,经济社会管理工作几乎就没有办法正常进行。 对传统统计数据的依靠和对现代大数据的依[详细]
-
用Elastic Block Store EBS 改善性能和数据可用性
所属栏目:[大数据] 日期:2022-06-25 热度:176
如今,许多数据库即服务(DBaaS)解决方案将计算层和存储层分开来,比如包括Amazon Aurora和Google BigQuery。由于数据存储和数据复制可以由现有服务来处理,DBaaS无需担心这种复杂性,这种解决方案很有吸引力。然而,这种设计的性能有时可能不如传统方式[详细]
-
如何使云原生运维化繁为简
所属栏目:[大数据] 日期:2022-06-10 热度:185
云计算带来了集约化、效率、弹性与业务敏捷的同时,对云上运维提出了前所未有的挑战。如何面对新技术趋势的挑战,构建面向云时代的智能监测平台,让云上应用获得更好的保障,是如今摆在每一个企业面前的一道难题。 在日前的【TTalk】系列活动第八期中,51C[详细]
-
如何借助Python创建机器学习模型
所属栏目:[大数据] 日期:2022-06-10 热度:50
你是否会遇到这样的场景,当你训练了一个新模型,有时你不想费心编写 Flask Code(Python的web 框架)或者将模型容器化并在 Docker 中运行它,就想通过 API 立即使用这个模型? 如果你有这个需求,你肯定想了解MLServer。它是一个基于Python的推理服务器,[详细]
-
转向未来的AI自动化测试工具
所属栏目:[大数据] 日期:2022-06-10 热度:87
近年来,自动化测试已经发生了重大的迭代。它在很大程度上协助QA团队减少了人为错误的可能。虽然目前有许多工具可以被用于自动化测试,但合适的工具一直是自动化测试成败与否的关键。同时,随着人工智能、机器学习和神经网络在各个领域的广泛运用,面向人[详细]
-
微型机器学习有望让深度学习嵌入微处理器
所属栏目:[大数据] 日期:2022-06-10 热度:105
深度学习模型最初的成功归功于拥有大量内存和GPU集群的大型服务器。深度学习的前景催生了一个为深度神经网络提供云计算服务的行业。因此,在几乎无限的云资源上运行的大型神经网络变得非常流行,这对于具有充足预算的科技公司尤其如此。 但与此同时,近年[详细]