请选择
进入手机版
|
继续访问电脑版
设为首页
收藏本站
专注物联网产业服务
抗击肺炎
科技每日说
物联网政策
物联网安全
融资/创投
微信二维码
威腾网服务号
首页
Portal
资讯
智库
IOT圈子
Group
产品评测
行业报告
互动
BBS
服务
投稿
文章
帖子
IOT圈子
用户
游客您好
已有账号?
登陆账号
注册后更精彩
立即注册
第三方账号登陆
QQ登陆
微信登陆
微博登陆
客服电话
快速发帖
问题反馈
APP下载
官方微信
返回顶部
点击联系客服
在线时间:8:00-16:00
客服电话
17600611919
电子邮件
online@weiot.net
威腾网服务号
随时掌握企业动态
扫描二维码
关注威腾小程序
IC半导体
科技每日说
智能供暖
物联网IOT
新零售
区块链
车联网
智能硬件
人工智能AI
5G通讯
智能家居
智能安防
智慧城市
电池/新能源
圈子
问答
申请加入企业库
申请媒体报道
寻求融资
威腾网
›
IOT圈子
›
领域
›
大数据
大数据
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
展开简介
收藏
RSS
积分: 25
群主:
看支付
加入IOT圈子
首页
讨论区
成员列表
1
2
3
4
5
6
7
8
9
10
... 160
/ 160 页
下一页
返回首页
发帖
全民阅读正当时,大数据折射图书消费新变
新华社北京4月22日电 题:全民阅读正当时,大数据折射图书消费新变 新华社“中国网事”记者张漫子、阳娜 世界读书日将至,多份读书报告也火热出炉。今年哪类图书最畅销?国民阅读偏好有哪些新变?让我们透过“读书大数据”一探究竟。 “云听书”“云阅读”受青睐,纸书阅读受到“挤压” 中国新闻出版研究院20日发布的全国国民阅读调查结果显示,随着手机和互联网成为我们每天接触的媒介主体,“云阅读”成为更多读者的选择。 数据显示,2019年我国成年国民数字化阅读方式的接触率为79.3%,较上一年上升3.1%。36.7%的成年国民更倾向于“拿一本纸质图书阅读”,43.5%的国民倾向于“手机阅读”——这一比例比2018年的40.2%上升了3.3%。 广大读者花在数字阅读上的时间更长。2019年我国成年国民的网络在线、手机、电子阅读器及Pad阅读接触率均有所上升。网络在线阅读的比例、手机阅读的比例分别同比2019年提升了2.3%、2.4%。 从数字化阅读方式的人群分布特征来看,数字化阅读方式已经贯穿全年龄层。近半国民习惯于手机阅读,最偏爱“云阅读”的群体莫过于90后和00后。 与此同时,有声阅读也受到了全年龄层的一致喜爱。无论是在路上、在晨跑,还是休息中,各年龄段“云听书”的比例均有显著增长,随时随地无障碍听书正在成为全民阅读的新增长点。 数据显示,2019年我国31.2%的国民有听书习惯。成年国民的听书率为30.3%,较2018年的平均水平26.0%提高了4.3%。 在“云阅读”“云听书”的流行趋势下,人均纸质书和电子书的阅读量不免受到“挤压”。2019年我国成年国民人均纸质图书阅读量和电子书阅读量分别为4.65本、2.84本,低于2018年的均值4.67本、3.32本。 亲子阅读坚挺:“不用担心我娃没有书看” 近年来,亲子阅读越来越受重视:在孩子的童年时期,逛书店、陪伴阅读成为许多家长理所当然的日常选择。 对亲子早期阅读行为的分析发现,2019年0-8岁儿童家庭中,有陪孩子读书习惯的家庭占70%,较2018年增加1.3%。0-8周岁儿童家长平均每年带孩子逛书店2.92次,高于2018年的均值2.87次。 在书店遛娃、睡前“乐读”等亲子阅读习惯的“侵染”下,我国未成年人的图书阅读率持续上升。数据显示,我国0-17岁未成年人图书阅读率为82.9%,较上一年提高2.5%。14-17岁青少年图书阅读率为89.1%,较上一年提高2.7%。 记者采访发现,在各地相关政策的扶持下,在北京、上海、深圳等城市,亲子书店的数量和规模也越来越大。根据青少年特点引入的视、听、触、感、味等体验元素,让亲子主题书店不只是亲子共读的场所,更成为体验式阅读文化的休闲中心,一些进口绘本、少儿电影读本的引入让更多儿童喜爱“寓学于乐”的氛围和多元化的阅读空间。 在全社会对青少年阅读的重视下,我国多年龄段未成年人的人均图书阅读量继续增长。2019年我国14-17周岁青少年课外图书的阅读量最大,为12.79本,较2018年的11.56本增加了1.23本;0-8周岁儿童人均图书阅读量为9.54本,比2018年的7.10本增加了2.44本。2019年我国0-17周岁未成年人的人均图书阅读量为10.36本,比2018年的8.91本增加了1.45本。 此外,根据京东大数据研究院的数据显示,2019年中国图书市场结构中,K12教育(学前教育至高中教育)图书的占比明显高于美国市场水平并持续上升,反映了中国K12教育图书领域的增长潜力巨大。 疫情如何改变我们的阅读? 在2020年第一季度,国人经历了一场空前的抗“疫”战。全民抗“疫”有了书的陪伴,居家的日子不再难熬。 从总体数据来看,同比2019年第一季度,2020年一季度图书成交额同比保持增长。从品类上看,京东大数据显示,疫情期间,少儿图书所占码洋份额高达近30%,创历史新高。疫情完全挡不住青少年读书的热情。增长最快的除了教辅、童书及科普类外,还有金融投资、历史、家居、传记等,而科工类实用书籍增长不明显。 在这个“按下暂停键”的时间段里,人们终于有时间买一些自己喜欢看的图书,并有以“大部头”取代“碎片化阅读”的趋势。京东大数据显示,需要沉浸式阅读的书籍:如金融、历史、传记等,或是提升精神与身体素养的类型:如艺术、哲学、健身保健等,在2020年1-3月均有同比增长。 一个有意思的现象是,根据京东大数据研究院提供的数据显示,《华夏万卷硬笔书法练习字帖5本套装》成为2020年一季度销量同比增幅最大的图书。“书法”类图书的成交额大增,“农林”类书籍也很受欢迎,反映出大家在居家隔离期间没有放弃修身养性,在收拾花草和泼墨挥毫中“释放才华”。 同时,特殊事件也刺激了相关图书的销量。因NBA传奇巨星科比去世而引发的传记销售增长显著。《鼠疫》《逼近的瘟疫》《血疫:埃博拉的故事》等疫情相关读物销量创下近年来的新高。 有关医学健康的专业类书籍2月和3月环比分别增长20%、48%,有关心理学的书籍2月和3月环比分别增长3%、25%。包含《血疫:埃博拉的故事 》《大流感:最致命瘟疫的史诗》等与疫情相关的读物,2月份的销量环比激增190%。 疫情期间,图书销量排名前十名的城市是:北京、上海、广州、成都、深圳、西安、重庆、天津、苏州、南京。从细分品类来看,石家庄的读者最爱买的是人文社科类图书和教辅类书籍。西安读者偏向购买家居生活类书籍,童书和科普类读物在沈阳销量最好。 声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 原文章作者:光明网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
龙情韵
发表于
3 小时前
最后回复
龙情韵
3 小时前
1541
0
安全(应急)产业大数据平台正式上线!
为贯彻落实工信部、应急部、科技部、财政部《关于加快安全产业发展指导意见》中关于“建设安全产业大数据平台”的要求和工信部《应急产业培育与发展行动计划(2017-2019)》中关于“建设国家应急产品和服务信息综合平台”的部署,在工业和信息化部指导下,中国信息通信研究院建设了安全(应急)产业大数据平台(以下简称“平台”,点击阅读原文访问)。近日,平台已完成部署,并正式上线运行。平台定位于安全(应急)产业公共服务平台,构建形成产业资源清单、安全应急物资生产力布局、产业在线大会等功能应用,支撑各级政府、园区摸清产业家底,引导产业优化布局,服务企业宣传推广,助力对接产业链上下游资源。一是发布产业资源清单,助力摸清产业家底。用户通过平台可快速获取应对各类突发公共事件的相关企业和产品清单,并根据所属地区、企业规模等特点进行差异化检索。目前平台已积累了近4万条企业数据和近5千条产品数据,后续还将通过大数据手段实现滚动更新,并进一步丰富教育、人才等资源情况。二是构建安全应急物资生产力布局,引导地区优化产业布局。平台绘制了安全(应急)产业园区与企业分布地图,可服务各类用户查阅我国安全产业示范园区与应急产业示范基地发展概况及产业布局,更好地引导各地实现安全(应急)产业错位发展、开展招商引资工作。三是构建产业在线大会,服务企业宣传推广。平台搭建了“中国安全产业在线大会”,为行业重点企业和产品构建了专门展览页面,形成可持续的安全(应急)产品线上展示基地,为各类用户推广先进产品形成支撑保障。 安全(应急)产业大数据平台 未来,平台还将继续发挥好公共服务平台的作用,立足产业发展需求,进一步夯实数据基础、创新功能应用,更好地服务各级政府、产业园区、协会联盟和行业企业。欢迎广大业界同仁与平台开展深入合作,共同助力提升社会本质安全水平和应急保障能力! ” 推荐阅读 点亮在看共渡难关 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
泡冕
发表于
3 小时前
最后回复
泡冕
3 小时前
4793
0
我省四企业入选国家大数据产业发展试点示范项目
近日,工信部公布2020年大数据产业发展试点示范项目名单,我省4家企业入选,将在政策、资金等方面得到支持。 我省入选的项目分别是:东软集团股份有限公司的“大数据赋能医保基金管理与医疗保障服务平台”项目,心医国际数字医疗系统(大连)有限公司的“基于云计算的医疗大数据分析服务平台及应用示范”项目,一重集团大连工程技术有限公司的“重大冶金装备全生命周期大数据平台示范工程”项目,沈阳飞机工业(集团)有限公司的“工业大数据应用平台”项目。 *本网站有关内容转载自合法授权网站,如果您认为转载内容侵犯了您的权益, 原文章作者:东北新闻网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
销晃尸
发表于
6 小时前
最后回复
销晃尸
6 小时前
3067
0
听五年大数据专家深度解析:大数据的大价值,大数据五大成功案例
前言 大数据的热潮并未有消褪迹象,相反,包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出,在推动大数据企业应用方面,真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国内,虽然管理学界和财经媒体对大数据推崇备至,认为大数据是信息技术改变商业世界的杀手 应用,但是关于大数据中国企业的成功案例的报道却出奇地少。 最近《中国企业家》的“大数据专题”特别报道采访了农夫山泉、阿迪达斯中国和数家航班信息移动服务商(前两家为SAP客户),为我们带来了详实的大数据案例报道,非常有参考价值,原文转载如下: 就在制作这期“大数据专题”时,编辑部发生热烈讨论:什么是大数据?编辑记者们旁征博引,试图将数据堆砌的商业案例剔除,真正的、实用性强的数据挖掘故事留下。 我们报道的是伪大数据公司?我们是否成为《驾驭大数据》一书的作者Bill Franks所称的“大数据骗局”中的一股力量?同样的质疑发生在阿里巴巴身上。有消息称,3月23日,阿里巴巴以7000万美元收购了一家移动开发者数 据统计平台。这引发了专家们热烈讨论,它收购的真是一家大数据公司吗? 这些质疑并非没有道理。 中国确实没有大数据的 土壤。“差不多先生”、“大概齐”的文化标签一直存在。很多时候,各级政府不太需要“大数据”,形成决策的关键性数据只有一个数字比率(GDP)而已;其 二,对于行业主管机构来说,它们拥有大量原始数据,但它们还在试探、摸索数据开放的尺度,比如说,是开放原始数据,还是开放经过各种加工的数据?是转让给 拥有更高级计算和储存能力的大型数据公司,还是将数据开源,与各种各样的企业共享?其三,数据挖掘的工具价值并没有完全被认同。在这个领域,硬件和软件的 发展并不十分成熟。 即便如此,没有人否认数据革命的到来,尤其在互联网行业。阿里巴巴的马云将大数据作为战略方向,百度的李彦宏用“框计算”来谋划未来。即便是CBA(中国男子篮球职业联赛)也学起了NBA(美国男篮职业联赛)五花八门的数据统计、分析与挖掘。 在过去两年间,大量的资本投资一些新型数据工具公司,根据美国道琼斯风险资源(Dow Jones VentureSource)的数据,在过去的两年时间里,11.7亿美元流向了119家数据库软件公司。去年,SAP市值已经超过西门子,成为德国市值 最高的上市公司,而这样的业绩部分得益于其数据库软件HANA的商业化,去年一年时间里HANA带给SAP3.92亿欧元的收入,增长了142%。 但是,大数据还没法分析、挖掘出自己的直接变现能力。在截稿日时,我们再重新读维克托·迈尔-舍恩伯格(Viktor Mayer-Sch鰊berger)的《大数据时代:生活、工作与思维的大变革》一书,作者相信,未来,数据会成为有价值的资产。假以时日,它会大摇大摆 地进入资产负债表里。 案例1:农夫山泉用大数据卖矿泉水 发挥你您的想象力,选择您认为可是的答案 这里是上海城乡结合部九亭镇新华都超市的一个角落,农夫山泉的矿泉水堆头静静地摆放在这里。来自农夫山泉的业务员每天例行公事地来到这个点,拍摄10张 照片:水怎么摆放、位置有什么变化、高度如何……这样的点每个业务员一天要跑15个,按照规定,下班之前150张照片就被传回了杭州总部。每个业务员,每 天会产生的数据量在10M,这似乎并不是个大数字。 但农夫山泉全国有10000个业务员,这样每天的数据就是100G,每月为3TB。当这些图片如雪片般进入农夫山泉在杭州的机房时,这家公司的CIO胡健就会有这么一种感觉:守着一座金山,却不知道从哪里挖下第一锹。 胡健想知道的问题包括:怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久,他们一次购买的量多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?不少问题目前也可以回答,但它们更多是基于经验,而不是基于数据。 从2008年开始,业务员拍摄的照片就这么被收集起来,如果按照数据的属性来分类,“图片”属于典型的非关系型数据,还包括视频、音频等。要系统地对非 关系型数据进行分析是胡健设想的下一步计划,这是农夫山泉在“大数据时代”必须迈出的步骤。如果超市、金融公司与农夫山泉有某种渠道来分享信息,如果类似 图像、视频和音频资料可以系统分析,如果人的位置有更多的方式可以被监测到,那么摊开在胡健面前的就是一幅基于人消费行为的画卷,而描绘画卷的是一组组复 杂的“0、1、1、0”。 SAP全球执行副总裁、中国研究院院长孙小群接受《中国企业家》采访时表示,企业对于数据的挖掘使用分三个阶 段,“一开始是把数据变得透明,让大家看到数据,能够看到数据越来越多;第二步是可以提问题,可以形成互动,很多支持的工具来帮我们做出实时分析;而 3.0时代,信息流来指导物流和资金流,现在数据要告诉我们未来,告诉我们往什么地方走。” SAP从2003年开始与农夫山泉在企业管理软件ERP方面进行合作。彼时,农夫山泉仅仅是一个软件采购和使用者,而SAP还是服务商的角色。 而等到2011年6月,SAP和农夫山泉开始共同开发基于“饮用水”这个产业形态中,运输环境的数据场景。 关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在全国有十多个水源地。农夫山泉把水灌装、配送、上架,一瓶超市售价2元 的550ml饮用水,其中3毛钱花在了运输上。在农夫山泉内部,有着“搬上搬下,银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本,成为问 题的核心。 基于上述场景,SAP团队和农夫山泉团队开始了场景开发,他们将很多数据纳入了进来:高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求(比如某城市召开一次大型运动会)。 在没有数据实时支撑时,农夫山泉在物流领域花了很多冤枉钱。比如某个小品相的产品(350ml饮用水),在某个城市的销量预测不到位时,公司以往通常的 做法是通过大区间的调运,来弥补终端货源的不足。“华北往华南运,运到半道的时候,发现华东实际有富余,从华东调运更便宜。但很快发现对华南的预测有偏 差,华北短缺更为严重,华东开始往华北运。此时如果太湖突发一次污染事件,很可能华东又出现短缺。” 这种没头苍蝇的状况让农夫山泉头疼 不已。在采购、仓储、配送这条线上,农夫山泉特别希望大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产多少,送多少;其次,让400 家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。 也就是说,销售的最前端成为一个个神经末梢,它的任何一个痛点,在大脑这里都能快速感知到。 “日常运营中,我们会产生销售、市场费用、物流、生产、财务等数据,这些数据都是通过工具定时抽取到SAP BW或Oracle DM,再通过Business Object展现。”胡健表示,这个“展现”的过程长达24小时,也就是说,在24小时后,物流、资金流和信息流才能汇聚到一起,彼此关联形成一份有价值 的统计报告。当农夫山泉的每月数据积累达到3TB时,这样的速度导致农夫山泉每个月财务结算都要推迟一天。更重要的是,胡健等农夫山泉的决策者们只能依靠 数据来验证以往的决策是否正确,或者对已出现的问题作出纠正,仍旧无法预测未来。 2011年,SAP推出了创新性的数据库平台SAP Hana,农夫山泉则成为全球第三个、亚洲第一个上线该系统的企业,并在当年9月宣布系统对接成功。 胡健选择SAP Hana的目的只有一个,快些,再快些。采用SAP Hana后,同等数据量的计算速度从过去的24小时缩短到了0.67秒,几乎可以做到实时计算结果,这让很多不可能的事情变为了可能。 这些基于饮用水行业实际情况反映到孙小群这里时,这位SAP全球研发的主要负责人非常兴奋。基于饮用水的场景,SAP并非没有案例,雀巢就是SAP在全 球范围长期的合作伙伴。但是,欧美发达市场的整个数据采集、梳理、报告已经相当成熟,上百年的运营经验让这些企业已经能从容面对任何突发状况,他们对新数 据解决方案的渴求甚至还不如中国本土公司强烈。 这对农夫山泉董事长钟目炎目炎而言,精准的管控物流成本将不再局限于已有的项目,也可以 针对未来的项目。这位董事长将手指放在一台平板电脑显示的中国地图上,随着手指的移动,建立一个物流配送中心的成本随之显示出来。数据在不断飞快地变化, 好像手指移动产生的数字涟漪。 以往,钟目炎目炎的执行团队也许要经过长期的考察、论证,再形成一份报告提交给董事长,给他几个备选方案,到底设在哪座城市,还要凭借经验来再做判断。但现在,起码从成本方面已经一览无遗。剩下的可能是当地政府与农夫山泉的友好程度,这些无法测量的因素。 有了强大的数据分析能力做支持后,农夫山泉近年以30%-40%的年增长率,在饮用水方面快速超越了原先的三甲:娃哈哈、乐百氏和可口可乐。根据国家统 计局公布的数据,饮用水领域的市场份额,农夫山泉、康师傅、娃哈哈、可口可乐的冰露,分别为34.8%、16.1%、14.3%、4.7%,农夫山泉几乎 是另外三家之和。对于胡健来说,下一步他希望那些业务员搜集来的图像、视频资料可以被利用起来。 获益的不仅仅是农夫山泉,在农夫山泉场 景中积累的经验,SAP迅速将其复制到神州租车身上。“我们客户的车辆使用率在达到一定百分比之后出现瓶颈,这意味着还有相当比率的车辆处于空置状态,资 源尚有优化空间。通过合作创新,我们用SAP Hana为他们特制了一个算法,优化租用流程,帮助他们打破瓶颈,将车辆使用率再次提高了15%。” 案例2:阿迪达斯的“黄金罗盘” 发挥你您的想象力,选择您认为可是的答案 看着同行大多仍身陷库存泥潭,叶向阳庆幸自己选对了合作伙伴。 他的厦门育泰贸易有限公司与阿迪达斯合作已有13年,旗下拥有100多家阿迪达斯门店。他说,“2008年之后,库存问题确实很严重,但我们合作解决问题,生意再次回到了正轨。” 在最初降价、打折等清库存的“应急措施”结束后,基于外部环境、消费者调研和门店销售数据的收集、分析,成为了将阿迪达斯和叶向阳们引向正轨的“黄金罗盘”。 现在,叶向阳每天都会收集门店的销售数据,并将它们上传至阿迪达斯。收到数据后,阿迪达斯对数据做整合、分析,再用于指导经销商卖货。研究这些数据,让阿迪达斯和经销商们可以更准确了解当地消费者对商品颜色、款式、功能的偏好,同时知道什么价位的产品更容易被接受。 阿迪达斯产品线丰富,过去,面对展厅里各式各样的产品,经销商很容易按个人偏好下订单。现在,阿迪达斯会用数据说话,帮助经销商选择最适合的产品。首 先,从宏观上看,一、二线城市的消费者对品牌和时尚更为敏感,可以重点投放采用前沿科技的产品、运动经典系列的服装以及设计师合作产品系列。在低线城市, 消费者更关注产品的价值与功能,诸如纯棉制品这样高性价比的产品,在这些市场会更受欢迎。其次,阿迪达斯会参照经销商的终端数据,给予更具体的产品订购建 议。比如,阿迪达斯可能会告诉某低线市场的经销商,在其辖区,普通跑步鞋比添加了减震设备的跑鞋更好卖;至于颜色,比起红色,当地消费者更偏爱蓝色。 推动这种订货方式,阿迪达斯得到了经销商们的认可。叶向阳说:“我们一起商定卖哪些产品、什么产品又会热卖。这样,我们将来就不会再遇到库存问题。” 挖掘大数据,让阿迪达斯有了许多有趣的发现。同在中国南部,那里部分城市受香港风尚影响非常大;而另一些地方,消费者更愿意追随韩国潮流。同为一线城 市,北京和上海消费趋势不同,气候是主要的原因。还有,高线城市消费者的消费品位和习惯更为成熟,当地消费者需要不同的服装以应对不同场合的需要,上班、 吃饭、喝咖啡、去夜店,需要不同风格的多套衣服,但在低线城市,一位女性往往只要有应对上班、休闲、宴请的三种不同风格的服饰就可以。两相对比,高线城 市,显然为阿迪达斯提供了更多细分市场的选择。 实际上,对大数据的运用,也顺应了阿迪达斯大中华区战略转型的需要。 库存危机后,阿迪达斯从“批发型”公司转为“零售驱动型”公司,它从过去只关注把产品卖给经销商,变成了将产品卖到终端消费者手中的有力推动者。而数据收集分析,恰恰能让其更好地帮助经销商提高售罄率。 “我们与经销商伙伴展开了更加紧密的合作,以统计到更为确切可靠的终端消费数据,有效帮助我们重新定义了产品供给组合,从而使我们在适当的时机,将符合 消费者口味的产品投放到相应的区域市场。一方面降低了他们的库存,另一方面增加了单店销售率。卖得更多,售罄率更高,也意味着更高的利润。”阿迪达斯大中 华区董事总经理高嘉礼对大数据的应用成果颇为满意。 案例3:数据权之争 发挥你您的想象力,选择您认为可是的答案 拥有了数据就等于夺取了行业制高点,飞友网络科技公司CEO郑洪峰深知个中道理。 最近几年,随着移动互联网的兴起,一类关于航班动态的应用程序开始出现。通过一套算法,数据工程师们将机场航班实时动态转换成直观的信息,再传递给用户,让后者能够及时了解到航班的起飞、到达、延误、取消、返航、备降等状态,从而帮助用户更高效地安排行程计划。 目前这个市场上主要有三款应用产品,分别是航班管家、飞常准和航旅纵横,飞常准正是飞友科技推出的一款应用。三款应用中,航班管家和飞常准都是民营企 业,上线时间较早,用户数较多;航旅纵横虽然上线最晚,却是由央企中国民航信息集团(中航信)开发,大有后来居上的趋势。 随着这个细分市场呈现三足鼎立的局面,一个问题浮出水面。郑洪峰向《中国企业家》直言,数据是这个行业最重要的资源。但是目前中航信垄断了大部分行业信息,使得飞常准必须通过购买和交换才能获得自己所需要的数据。 “我们的数据成本是非常高的。”郑洪峰告诉本刊,“气象、航班信息、空域流量等信息有些是公开发布的,有些则需要公司向空管局、机场和航空公司购买或交换。” 对于郑来说,获取数据的过程就是一部血汗创业史。据其回忆,早年的各大机场、航空公司之间的数据是割裂的,为了获得准确的航班起降信息,郑洪峰和他的团 队就去为这些政府机构、大公司提供技术支持,以此来交换所需要的数据。“我们必须放下身段,他们需要什么我们就做什么。”郑说道。因为飞常准是家小公司, 决策链条短,效率高,通过多年的积累,郑洪峰打通了部分数据通道。 郑洪峰在民航系统工作近12年,其人脉和常识的积累成为飞常准的重要 优势。1999年,他创建了民航资源网。现在,这家网站是中国最大的民航门户网站。2005年,他又创办了飞友,主要为飞行旅客提供机票搜索引擎等服务。 从2008年开始,郑洪峰团队通过飞常准为用户提供航班动态服务。早期,飞常准的用户只是民航内部工作人员,很多机票代理商主动帮其推广,机场方面也常常 用飞常准的应用来安抚因飞机延误而愤怒不已的乘客,而业内资深人士也常提供很多有价值的反馈信息。郑洪峰依靠民航内部的资源维持着自己的数据来源。但郑知 道,这并不能长久。 郑洪峰的故事并不是孤例。中国一家大型电子商务公司的数据挖掘专家接受本刊专访时提到,现在,越来越多的电子商务公 司需要预测非一线城市的物流状况。在这一过程中需要考虑当地交通拥堵程度和天气情况,如果当地政府可以提供这方面的相关数据,可以大大提高运作的效率。以 交通数据为例,这位数据挖掘专家使用的是百度地图和高德地图,后来,他发现不能再用了:一方面,与这样的公司合作存在商业机密问题;另一方面,由于交通数 据可能来自于这些公司的统计,失真度也是这位数据挖掘专家担心的。“我们非常希望政府能开放一些原始数据。”他继续说道,“我们也希望和领先者能平等地分 享数据权,而不是数据成本增加了二三倍。” 郑洪峰和这位数据专家都担心数据垄断,希望政府公平公开地开放数据,这样的做法并非没有借 鉴。美国有一个叫做flyontime.us的网站,用户可以从这个网站上获得航班信息和天气情况,其功能与国内的航班动态应用类似。但是值得一提的是, 这个网站的数据来源是一个公开的美国政府网站data.gov。目前在上面大约有超过40万各种原始数据文件,涵盖了农业、气象、金融、就业、交通、能源 等近五十个分类。此外,data.gov还有一个地理信息的子站点,专门提供地理信息相关的数据。美国官方表示,这个网站的目的是“方便公众更便捷地获得 联邦政府数据,并通过鼓励创新来突破政府的围墙而创造性地使用这些数据。” 2006年经济学家唐·泰普斯科特(Don Tapscott)在《维基经济学》中指出,人类已经进入了共享时代:“失败者创建的是网页,而胜利者创建的是生机勃勃的社区;失败者创建的是有墙的花 园,而胜利者创建的则是一个公共的场所;失败者精心守护他们的数据和软件界面,而胜利者则将资源与每个人共享。”这一理念后来被认为是网络2.0时代的核 心理念。以用户为中心,注重用户交互,让用户参与共同建设的网络2.0同样适用于政府,最近几年各国政府的一系列举措标志着政府2.0时代的到来。 那么在大数据时代,中国政府做好准备了吗? 参考阅读:数据解放宣言:美国政府大数据网站data.gov将开源 深藏的事实 飞常准的竞争对手也遇到了相同的困境。为了拿到第一手数据,航班管家非常卖力。它与各大机场合作,间接获得自己所需要的航班起降信息。2012年6月, 航班管家与上海虹桥机场达成协议,航班管家可以直接从虹桥机场获得信息,包括航班的延误、取消以及登机口变更等一手信息,且提供的信息均与虹桥机场同步。 可以预见,机场是其重要的数据来源。 面对竞争对手的步步紧逼,郑洪峰认为,正常的商业竞争并不是飞常准所焦虑的事。“开放与竞争对我们来说是好事。” 对于飞常准来说,央企中航信旗下的航旅纵横才是最大的威胁。“在一定程度上,它有垄断数据的嫌疑。”一位坚持匿名的专家说道。而面对记者的采访要求,航 旅纵横以不便透露为由拒绝。目前,中航信拥有中国所有终端旅客详细的数据库,包括姓名、手机、消费习惯等,这是中航信最核心的资源。由于与航旅纵横母子公 司的关系,非市场化的利益输送饱受诟病。 在有关民航信息的关键数据中,空域流量是影响中国航班正点率的主要原因,而这一数据掌握在空管局手里。“空管局也愿意将数据分享给航空公司、机场,甚至是一些小公司,它们这么多年也在努力,可中国有自己特殊的情况。”上述专家说道。 在中国,不到30%的空域对民航开放。和其它国家相比,中国是空域管制最为严格的国家之一。“民航系统也很头疼,七成多的空域属于国家机密,所以机场、空域关闭根本无法预知,何来公开的数据?”上述专家说道。 在航班信息中,准点率是非常重要的一条数据。郑洪峰以此对比中美两国差异。“在国外,像准点率这些关键数据都是由政府全部公开的,因为准点率会决定哪家 航空公司可以获得哪些航线,是航线资源分配一个非常重要的参数。但是,在中国,这个数据却是各家公司自己搜集的。”换句话说,相关政府部门并没有掌握到第 一手的数据来源,遑论数据开放了。 在石油、电信、铁路、民航等战略行业中,民航业的数据开放远远走在了其它行业的前头。上述电子商务公司的数据专家告诉本刊,设计物流工具时,他们更愿意与民航系统合作,不仅仅是快,还因为如果找相对封闭的铁路系统要一些关键性数据,“更难,更不靠谱。”数据专家说道。 “有时,政府也有担心,你要数据做什么?有时他们第一反应是,‘间谍’;第二反应是,你用来赚钱的,我会不会存在什么风险。”上述民航专家说。这位民航 专家的一部分工作是为相关政府写内部报告,有时需要跟民航系统要一些关键性数据,即便如此,也免不了遭遇相关政府部门的怀疑。 中国传媒大学教授沈浩认为,现在的政府网站许多都是空架子,甚至大部分网站都很少更新,内容上也只是一些公告,而之前的决策过程并没有反映出来;与此同时,由于中国政府缺少推动力,尚无法建立像data.gov的数据平台。 另外,根据BNET商学院对中国政府部门的调查分析显示,政府部门以数据分析作为决策支撑并没有形成气候,将数据分析作为核心竞争力的只占5.6%,比起美国和英国等政府开源力度差距巨大。 此项调查的负责人,BNET商业英才网副总编周安利认为:政府部门依然缺乏对大数据的真正、全面的认识。在挖掘信息系统价值方面,数据分析也受制于管理 体制和职能制约,及长期传统管理积累的习惯,业务驱动力不足,绩效考核不配套。所以中国政府部门对大数据可能产生的价值,以及如何利用数据分析实现政府的 科学决策依然有相当长的距离要走。 数字生产力 如 今,飞常准已经拥有300万月活跃用户,覆盖1万个国内航班,5万个国际航班。郑洪峰直言,飞常准的优势和主要收入来源就是利用大数据技术对数据进行收 集、分析和加工。比如利用获得的收据,飞常准可以帮助保险公司制定航班延误保险,而这些都是政府和保险公司以前无法完成的。 以前,航班 延误险存在一个问题,就是保险公司让用户去举证,用户必须有各种各样的纸质证明才能从保险公司拿到赔偿,而赔偿金额往往只有两三百块钱,因此用户都不愿意 买这个险。“而现在,航班一落地,通过我们的数据和服务,保险公司就知道是否超过保险阀值,没超过的,用户可以直接从保险公司拿到钱,过程非常简单。”郑 说道。与保险公司的合作,郑洪峰得到的回报是收取一小部分服务佣金。 数据开放不仅可以让小公司受益,而且可以让政府更加透明、负责任。 美国政府前助理信息官、纽约大学法学院教授贝丝·诺维克(Beth Noveck)在她的《维基政府——运用互联网技术提高政府管理能力》一书中阐述了如何在数字化背景下,运用网络和大数据建立民主和高效的政府。“数据开 放可以让体制内外的人一起参与进来,解决政府无法完成以及棘手的问题。”诺维克告诉《中国企业家》。 诺维克以感染率数据为例说明开放数 据的作用。美国的医疗部门搜集了全美几乎所有医院的感染率,但是政府并没有足够的能力把这些数据转化为有价值的信息。可是,当这些数据被放在 data.gov网站上以后,微软和谷歌却能够运用自己强大的技术能力制作了一幅数据地图。不管是研究机构或者是普通患者都能运用搜索引擎查找任何一家医 院的感染率来决定是否住院。 而在中国互联网领域,此前受到虚假广告质疑的百度也开始与相关政府部门合作,利用后者的数据进行网络打假。 百度相关负责人告诉《中国企业家》,以前百度需要从2000亿网页中筛查出有问题的假药网站,屏蔽虚假医疗信息非常困难,单纯依靠技术和管理手段的升级, 难以达到打击假药的最佳效果。同时,百度作为一家企业,并不具备相关监管资质,这也是百度无法进行独立打击假药的问题所在。百度曾独立打击假药,但效果十 分有限。 从2010年开始,百度联合卫生部、国家药监局等多个部委部门发起“阳光行动”,打击各类互联网不良及虚假信息,之后,百度与 国家药监局正式达成战略合作,国家药监局的三大药品数据库,总计20余万个权威药品信息向百度开放,而且这些数据库将随着药监局的数据变化实时更新。用户 可以通过通俗的商品名、专业的药品名、批准文号等多个途径,在百度搜索到药品的权威信息。 “作为5亿网民的互联网入口,百度一直以来都希望能利用搜索入口和平台优势,与各家具有数据资源优势的政府部门、权威机构联手,让权威信息全面入驻网络。”这位负责人说道,“重要的是,数据治国,相关政府部门也获得了很好的赞誉。” 中国传媒大学教授沈浩认为,虽然中国政府在2007年就发布了《政府信息公开条例》,但目前政府公布的数据大部分还是报告和报表,没有标准的格式,不能以数据的形式查到,因此也无法进行深入的分析、加工和挖掘。 “如果政府需要社会共享和分析这些数据,必须提供最原始的数据,这样的数据学术和商业上才能去应用它。”沈浩说,“你看data.gov的网站,在上面的联邦政府的数据库,都是以电脑可读取的格式发布的。” 郑洪峰也意识到这个难题。他有时候会给相关政府、大公司提供一些数据,他力求寻找一种标准格式。而在这样的方向上,中国的一些公司也在与政府一起努力。 高德软件有限公司三维应用事业部总经理赵珂告诉记者,以前的项目往往是政府立项再雇用公司去做,完成后政府拥有版权,这样导致数据市场不是市场经济而是 投资拉动型的经济。而目前高德与地方测绘局采取的合作形式是授权模式,高德帮助政府采集数据。拥有了标准化的数据,相关政府就拥有了一个标准的基础数据 库。“这是国家测绘局比较有远见的一个举措,相信我们未来和政府这类合作会越来越多。”赵珂说。 郑洪峰也相信,未来会更务实更市场化,歧视性的东西会越来越少。中国的数据会越来越开放,也会更加利用市场的机制去鼓励更多的商业用户用好航班的数据。 与此同时,郑洪峰也在以不同形式回馈于给他提供数据的政府相关部门和大公司,最近,他的团队正在撰写一份报告,名为《航班正点提高率计划》。 原文章作者:大数据架构师,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
攸爸
发表于
昨天 20:41
最后回复
意福浏
昨天 20:43
2260
1
【原创】气象中的数据、大数据和云系列之气象大数据
上一讲,大概讲了讲很基础的数据,因为偏底层,很多预报、科研业务压根涉及不到--- 对于在校的学生来说,更是遥遥不可及,显得很枯燥 然后有一个漂亮的小姐姐 她说格式太渣,看的没胃口, 今天打算好好做一下格式,希望不要被嫌弃 然而内容,可能依旧偏底层,也许写到最后,能够形成一个完整的闭环吧。 (漂亮警告,无关人员请撤离,底层劝退) ****正文开始**** 为了好理解,后面所有的气象数据, 除了特殊说明外,通指狭义的气象数据(温压湿风那些东东) 说起大数据,几乎现在任何领域都能沾上个边,各种概念炒的天花乱坠 import brain as talent print('脑子是个好东西')诚然不可否认,大数据技术在这个信息时代带来的优势和冲击是不可阻挡的,剥去炒作的外壳,结合我们的气象,一起来看看 气象的大数据 依旧,将气象的大数据,分为应用层和底层吧, 今天先从基础的底层讲起,大家最有兴趣的应用层的内容,后面再讲。 毕竟。凡事都要有个基础。 后面的题目大概是 《举国震惊,大批预报员失业竟是因为它》 《 不看后悔一辈子,原来下不下雨竟由它决定》 《太可怕了!它居然干了这种事!》 归纳一下后,应用层的气象大数据,指的是: 对大量气象或关联数据进行抽取分析,对其中关联的数学、物理、统计关系进行梳理或者通过机器学习(如果愿意的话叫什么深度学习,人工智能也行)的方式,对其规律进行探究,从而对其中的关系进行归纳总结。 今天讲的是底层的大数据,也可以理解为如何对应用层的大数据进行支持,其核心,就是 数据管理 都是些定性的粗浅介绍,详细技术后面再谈,今天是总览 说到管理,就跟人一样...抛开规模谈管理 都是耍流氓 管一个人,一个班,一个学校,一个社区... 管理方式,肯定是不同的。 放到气象数据领域,也是一个道理 · 如果我关注的是某一个站点过去几小时的数据,那么,很可能,一个excel就够了.... · 如果我关注的是一个省/区域几百个站点的数据,那么,很可能,需要好几个excel或者一个小规模的数据库.... · 如果我关注的是全国所有的地面、高空等数据,那么,很可能,光保存这些数据,就要几十台计算机协同工作了.... · 如果我关注的是全球的地面、高空、雷达卫星,那么,很可能,需要一栋特别大的楼,里面装满了各种设备.... 上面仅仅是说了一个规模,如果算上其他的性能指标,那就更复杂了。 有了这些功能性(把数据存好)和非功能性(速度还要快)的需求,下面我们来看看 比如我要在全球范围内查询过去4小时亚太地区500百帕的温度场,如果指令发出后10个小时才返回结果,那预报员早就把电脑砸了。然而实际上,下面这张图,从数据检索到等值线分析最后到绘图出图,用了大概360毫秒。 (图片来源:中央气象台官网) 看完上面的例子,可见 底层的气象大数据,都包括哪些部分,这些部分又有什么相互的联系呢? 首先,说说 存储 上一讲也讲过了,气象数据需要一些特定的介质来保存,这里化繁为简,就说是普通的硬盘吧,把海量的数据存储起来,当然以目前的技术水平,还无法保存在一个硬盘内,需要许许多多硬盘组成一个大的存储系统来满足容量需求,但是硬盘毕竟是机械设备,存在一定的故障风险,比如硬盘坏了或者烧穿了 像这样(实际上,好多数据中心都需要推着小车换硬盘的.....) 这时候,就需要进行冗余和容错设计。什么raid 什么双活 就是让系统可以在某些组件失能的情况下,依旧保证基本功能。 这还没完, 一旦保存数据的机房断电了、着火了怎么办? 答案是 在旁边再建立一个大楼机房保持相同的功能。 如果这个地区地震了或者其他原因无法使用,怎么办?答案是 我们在其他城市再建一个数据中心, 这就是赫赫有名的“两地三中心”,大概长这样... 来,顺便po一个机房的照片,...不敢放自己常去的那个 保存下来的数据要发挥它的价值,那么怎么用数据成了现在的当务之急, 就像刚刚说的,检索数据或者处理数据的时间如果太长,数据的价值就大打折扣甚至变得没有价值。为了保证访问的速度,还需要专门设计一套或者几套存储技术,确保数据访问的效率。 在一个 只有几个物品间的房间里找某样东西,那找起来当然很快, 可是如果有好多房间,每个房间都塞满了物品,那么,想找到确定的物品,就复杂得多了,不管用什么样的办法,总是要消耗更多的时间。 为了解决这一问题,在底层加入了诸多新技术和新方法比如分布式的关系型数据库,分析型数据库,对象存储,NAS等(不具体赘述)让数据检索的更快,存的更安全。 不同的存储技术对应不同的应用场景, 比如天气预报需要短时间内获取广泛空间范围内的最近时刻的数据资料,以保证预报时效。 而气候业务需要段时间内获取长时间序列的完整的数据资料,以保证评估质量。 以上两个仅仅是一个简单的例子,实际应用中,远比这样的场景复杂,再加上卫星雷达等数据,就是一个纷繁复杂的过程了。 说一个题外话,大家用的Micaps4 ,用户都说体验很好,实际上,从功能上来说,并没有什么质的飞跃(开发人员不要打我...) 但是因为对接了分布式关系型数据库 Cassandra,不再基于传统的Samba文件系统,数据访问速度有了极大的提升,带来了很棒的用户反馈。 说完了存储,再说 计算 计算,可以很简单,大家在自己的电脑上写个什么脚本,就能得到想要的结果 implicitnone print( 'welcome to bbs.06climate.com') 但是面对超大规模的时候,就又变得异常复杂,一个有趣而正确的理论是 一个人60秒能做完的事情,60个人1秒未必能完成。 面对海量的气象数据,格式不同、数据质量不同,在处理起来时,要面对繁多问题 传统单一的单节点计算机已经无法胜任这样规模的计算,需要众多计算机协同工作,如何保证参与工作的设备有序协调进行,如何保证结果的准确和同步,都是一个复杂的问题,所以引入了Spark 、 Storm等基于大数据的分布式计算框架(具体实现过程不表了) 除去了存储和计算 剩下的就是一些更底层的东西了,那么多计算和存储的设备需要电力保证,需要散热保证,需要网络保证。这些都要需要系统工程性的建设和维护。 向那些辛苦的人致敬吧。 原文章作者:气象家园,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
竣抗芬
发表于
昨天 19:49
最后回复
竣抗芬
昨天 19:49
2441
0
谷歌再被罚50亿美元,大数据时代用户隐私谁来保护?
6月2日,互联网巨头因为涉及非法侵犯数以百万用户的隐私遭到集体诉讼,被索赔50亿美元的巨款,约合人民币350多亿元。 据控告方向加州圣何塞联邦法院提交的起诉书显示,谷歌被指控在浏览器的“无痕”模式中依然跟踪用户互联网使用动作,这非法侵犯了数百万用户的隐私。此外,无论用户是否点击谷歌支持的广告,谷歌都通过谷歌分析、谷歌广告管理器等应用以及包括智能手机App等在内的网站插件收集用户信息。 消息传出后,谷歌股价下跌0.2%,报1436.038美元,总市值9824.43亿美元。 来源:富途 在用户隐私方面,谷歌可以说是劣迹斑斑,一直以来都游走在法律的边缘,甚至多次触碰法律底线。2019年1月份,法国隐私监管机构因隐私透明度问题对谷歌处以5000万欧元的罚款。9月份,谷歌又因旗下视频平台YouTube违规收集未成年人信息,被处以1.7亿美元。而其11月刚刚推出的“夜莺计划”,再次因非法收集数百万份患者病历信息而被叫停。 然而,多次“天价罚款”和监管警告依然没能阻止谷歌侵犯用户隐私的脚步。来到2020年,谷歌就已收到4次起诉和指控。 5月27日,谷歌遭到了来自亚利桑那州的起诉,其被指控非法追踪Android用户的定位。 5月中旬,谷歌还遭到了奥地利维权机构的投诉,该机构认为谷歌一直在通过一个独一无二的ID来对安卓手机用户进行非法监控,并将“跟踪ID”传递给广告商。 3月11日,因执行用户的“被遗忘权”不利,谷歌被瑞典数据保护局在其官网披露罚款7500万瑞典克朗(折合近800万美元)。据悉,“被遗忘权”是2014年欧盟制定的互联网隐私法的核心内容。根据该法律的规定,用户有权要求Google等搜索引擎删除他们认为是“过时的、不相关的或无需再被大众关注的”数据。 2月,谷歌被指控利用代码绕过Safari隐私设置(默认情况下阻止用户跟踪Cookie),设法使浏览器接受有收集用户隐私嫌疑的Cookie。即使事发后谷歌取消了该代码,并表示Cookie并未收集个人信息,但其“并非故意”的辩解之词仍不能令美国联邦贸易委员会(FTC)接受,谷歌最后被处以2250万美元的罚款。 尽管外界看来的“天价罚款”对谷歌来说不痛不痒,据一季报显示,谷歌仅现金就有196亿美元,支付巨额罚款也不会对谷歌造成较大的财务危机。但是屡次侵犯用户隐私对企业形象会造成较大的打击,另外也会被加入各国监管机构的黑名单,对其影响甚大。那么,为什么谷歌在收集用户信息上不惜触及法律也要屡罚屡犯? 马云在一场大数据产业推介会主题演讲中如是说,在DT(大数据)时代,谁掌握用户大数据就等于拥有了一处“金矿”,谁就把握住了商业“钱脉”。通过用户大数据的分析挖掘,企业可以知晓用户的喜好、消费习惯,对既有产品、服务加以改进,提升用户体验;在瞬息万变的当今社会,挖掘大数据可以有助于企业及时发现新的商机和经营模式。 谷歌说,收集用户信息是为了改善用户体验。然而这并不是它不惜触犯法律的理由,作为互联网巨头之一,对用户信息的大数据分析能力是谷歌的关键竞争力,拥有的数据越多,在商业竞争中就具备更大的优势。 对谷歌而言,用户信息代表着收入,尤其是广告收入。事实上,谷歌更像是一家广告公司,一直以来,广告收入占谷歌的总收入的比例基本都超过80%。以2019年为例,谷歌上年度收入达1618亿美元,其中广告收入达1348亿美元,占比为83.29%。 来源:同花顺 而谷歌这样的互联网广告与相对于传统广告的最大优势之一,就是能够依据客户信息进行精准投放。通过大数据分析实现的广告投放,能获得更高的点开率,因此成为广告业务竞争的核心焦点。 此外,谷歌的市场垄断地位也为其大力收集用户隐私“保驾护航”。据全球知名科技数据调查公司Net Market Share的统计数据,谷歌在搜索引擎的市场占有率达到58.64%,远高于排名第二微软的18.95%。这也是为什么谷歌始终有恃无恐的原因,即便遭遇多次诉讼和处罚,谷歌依然能够保持垄断地位。 同样地,垄断巨头之一的Facebook也在用户隐私上有颇多越界的行为。 今年5月,Facebook又因未经许可通过照片标记工具收集用户照片上的人脸信息,赔偿 5.5 亿美元;同月,Facebook在加拿大被指泄露用户隐私,遭罚650万美元 4月底,脸书因“剑桥分析事件”涉及隐私泄露向FTC缴纳了“史无前例”的罚款50亿美元。 此外,近年来互联网用户数据泄露事件频发,除国际巨头谷歌、Facebook、uber等之外,国内小红书、网易考拉等也遭工信部点名,互联网用户个人隐私保护已经成为国际聚焦的热点。在信息不对称的情况下,用户永远处于弱势的一方,想要在谷歌、Facebook这些巨头的垄断“统治”下维护用户合理的权益,或许只有寄希望于立法监管了。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
踱姗
发表于
昨天 19:30
最后回复
踱姗
昨天 19:30
3537
0
大数据架构变革进行时:为什么腾讯看好开源 Apache Iceberg?
随着大数据存储和处理需求越来越多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。如何快速、一致、原子性地在数据湖存储上构建起 Data Pipeline,成了亟待解决的问题。为此,Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目,一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。 虽然现阶段国内依旧缺乏数据湖概念上的优秀商业方案,但在基础软件开源化的趋势下,国内企业在数据湖技术点上的探索与跟进并不比国外企业落后太多。腾讯在 2018 年加入大数据存储开源项目 Apache Ozone,后又于 2019 年开始投入研发 Apache Iceberg;阿里巴巴也正联合 Apache Iceberg 社区积极推动 Flink 实时数据湖技术方案的落地。那么,Iceberg 和其他两个开源项目有何不同?为什么阿里和腾讯都在积极投入 Iceberg 的开源生态?Iceberg 有什么独到之处?近期 InfoQ 采访了腾讯数据平台部数据湖内核技术负责人、资深大数据工程师邵赛赛,他与我们分享了腾讯选择 Iceberg 前后的一些思考和采用 Iceberg 之后所做的优化工作,本文基于采访整理而成。邵赛赛还将在 QCon 全球软件开发大会(北京站)2020 带来主题为《Iceberg - 新一代的数据湖表格式》的演讲分享,感兴趣的读者可以关注。 计算引擎之下、存储之上的新技术 数据库大牛、图灵奖获得者 Michael Stonebraker 曾在 MapReduce 诞生之初撰写过一篇文章,题为“MapReduce: A major step backwards”,Michael Stonebraker 在文章中直截了当地指出:MapReduce 忽视了数据库领域积累超过 40 年的技术经验。虽然大数据技术的出现和迭代降低了用户处理海量数据的门槛,但另一方面,与数据库这样高度优化的技术相比,大数据技术的抽象和实现还是太原始和初级。因此大数据技术在后续十几年的发展中,一直以数据库为目标,将更多数据库的成熟技术和理念借鉴到大数据中。 当前,大数据分析领域已经相当成熟,如何借鉴更多数据库的成熟技术和理念来提升大数据的能力呢?Apache Iceberg、Hudi 和 Delta Lake 这三个定位类似的开源项目正是从数据库方法论中汲取了灵感,将事务能力带到了大数据领域,并抽象成统一的中间格式供不同引擎适配对接。 如何定义这类新技术? 简单地说,这类新技术是介于上层计算引擎和底层存储格式之间的一个中间层,我们可以把它定义成一种“数据组织格式”,Iceberg 将其称之为“表格式”也是表达类似的含义。它与底层的存储格式(比如 ORC、Parquet 之类的列式存储格式)最大的区别是,它并不定义数据存储方式,而是定义了数据、元数据的组织方式,向上提供统一的“表”的语义。它构建在数据存储格式之上,其底层的数据存储依旧使用 Parquet、ORC 等进行存储。 Apache Iceberg、Hudi 和 Delta Lake 诞生于不同公司,需要解决的问题存在差异,因此三者在设计初衷上稍有不同。 其中,Iceberg 的设计初衷更倾向于定义一个标准、开放且通用的数据组织格式,同时屏蔽底层数据存储格式上的差异,向上提供统一的操作 API,使得不同的引擎可以通过其提供的 API 接入;Hudi 的设计初衷更像是为了解决流式数据的快速落地,并能够通过 upsert 语义进行延迟数据修正;Delta Lake 作为 Databricks 开源的项目,更侧重于在 Spark 层面上解决 Parquet、ORC 等存储格式的固有问题,并带来更多的能力提升。 虽然这三个项目在设计初衷上稍有不同,但实现的思路和提供的能力却非常相似,他们都提供了 ACID 的能力,都基于乐观锁实现了冲突解决和提供线性一致性,同时相应地提供了 time travel 的功能。 但是因为设计初衷的不同,三个项目当前的能力象限各有不同,Iceberg 在其格式定义和核心能力上最为完善,但是上游引擎的适配上稍显不足;Hudi 基于 Spark 打造了完整的流式数据落地方案,但是其核心抽象较弱,与 Spark 耦合较紧;Delta Lake 同样高度依赖于 Spark 生态圈,与其他引擎的适配尚需时日。不过邵赛赛认为,这三个项目现有的差异会随着社区的推动和改进以及时间的累积慢慢磨平,最终可能会变得更趋于相同。 Apache Iceberg 在腾讯的采用情况 腾讯在 Iceberg 还未进入 Apache 孵化器时就已经开始关注,随着这几个技术的开源以及进入孵化器,这一领域开始逐渐升温,从 2019 年下半年开始,腾讯正式在该技术上进行探索和投入。 为什么选择 Iceberg? 谈及引入 Iceberg 的原因,邵赛赛表示,当时团队在构建大数据生态的过程中遇到了几个痛点,而 Iceberg 恰好能解决这几个痛点: T+0 的数据落地和处理。传统的数据处理流程从数据入库到数据处理通常需要一个较长的环节、涉及许多复杂的逻辑来保证数据的一致性,由于架构的复杂性使得整个流水线具有明显的延迟。Iceberg 的 ACID 能力可以简化整个流水线的设计,降低整个流水线的延迟。降低数据修正的成本。传统 Hive/Spark 在修正数据时需要将数据读取出来,修改后再写入,有极大的修正成本。Iceberg 所具有的修改、删除能力能够有效地降低开销,提升效率。 至于为何最终选择采用 Iceberg,而不是其他两个开源项目,技术方面的考量主要有以下几点: Iceberg 的架构和实现并未绑定于某一特定引擎,它实现了通用的数据组织格式,利用此格式可以方便地与不同引擎(如 Flink、Hive、Spark)对接,这对于腾讯内部落地是非常重要的,因为上下游数据管道的衔接往往涉及到不同的计算引擎;良好的架构和开放的格式。相比于 Hudi、Delta Lake,Iceberg 的架构实现更为优雅,同时对于数据格式、类型系统有完备的定义和可进化的设计;面向对象存储的优化。Iceberg 在数据组织方式上充分考虑了对象存储的特性,避免耗时的 listing 和 rename 操作,使其在基于对象存储的数据湖架构适配上更有优势。 除去技术上的考量,邵赛赛和团队也对代码质量、社区等方面做了详细的评估: 整体的代码质量以及未来的进化能力。整体架构代码上的抽象和优势,以及这些优势对于未来进行演化的能力是团队非常关注的。一门技术需要能够在架构上持续演化,而不会具体实现上需要大量的不兼容重构才能支持。社区的潜力以及腾讯能够在社区发挥的价值。社区的活跃度是另一个考量,更重要的是在这个社区中腾讯能做些什么,能发挥什么样的价值。如果社区相对封闭或已经足够成熟,那么腾讯再加入后能发挥的价值就没有那么大了,在选择技术时这也是团队的一个重要考量点。技术的中立性和开放性。社区能够以开放的态度去推动技术的演化,而不是有所保留地向社区贡献,同时社区各方相对中立而没有一个相对的强势方来完全控制社区的演进。 优化和改进 从正式投入研发到现在,腾讯在开源版本的基础上对 Iceberg 进行了一些优化和改进,主要包括: 实现了行级的删除和更新操作,极大地节省了数据修正和删除所带来的开销;对 Spark 3.0 的 DataSource V2 进行了适配,使用 Spark 3.0 的 SQL 和 DataFrame 可以无缝对接 Iceberg 进行操作;增加了对 Flink 的支持,可以对接 Flink 以 Iceberg 的格式进行数据落地。 这些改进点提高了 Iceberg 在落地上的可用性,也为它在腾讯内部落地提供了更为吸引人的特性。同时腾讯也在积极拥抱社区,大部分的内部改进都已推往社区,一些内部定制化的需求也会以更为通用的方式贡献回社区。 目前团队正在积极尝试将 Iceberg 融入到腾讯的大数据生态中,其中最主要的挑战在于如何与腾讯现有系统以及自研系统适配,以及如何在一个成熟的大数据体系中寻找落地点并带来明显的收益。邵赛赛具体提到了以下几点: Iceberg 的上下游配套能力的建设相对缺乏,需要较多的配套能力的建设,比如 Spark、Hive、Flink 等不同引擎的适配;其次是 Iceberg 核心能力成熟度的验证,它是否能够支撑起腾讯大数据量级的考验,其所宣称的能力是否真正达到了企业级可用,都需要进一步验证和加强;最后,腾讯内部大数据经过多年发展,已经形成了一整套完整的数据接入分析方案,Iceberg 如何能够在内部落地,优化现有的方案非常重要。 Iceberg 的不足和未来 Iceberg 诞生的时间不长,虽然拥有高度抽象和非常优雅的设计,但功能上仍有不足,尤其在围绕生态系统的建立和周边能力的打造上还有很多工作需要做。邵赛赛认为,当前 Iceberg 最重要的缺失点是和上层引擎的对接。现在 Iceberg 和 Spark 的对接是最为完善的,但是由于 DataSource V2 API 仍在不断地改进中,对于一些语义的下推依旧缺失,因此能力上和内置的存储格式相比仍有欠缺(比如 bucket join 的支持)。而对于 Hive、Flink 的支持尚在开发中。因为 Iceberg 是一个统一的数据组织格式,想要全面使用的话必须使所有的上层引擎能够对接适配,因此这一块环节的补足是当前最为重要的。 其次,Iceberg 缺少行级更新、删除能力。腾讯内部已经为 Iceberg 增加了行级更新、删除的能力,但在 Iceberg 社区尚未有这样的能力,这些能力所需的格式定义仍在设计中。行级更新、删除能力是现有数据组织格式的最大卖点,因此该功能的补强对于 Iceberg 的推广和落地十分重要。 在腾讯内部,后续对于 Iceberg 的规划主要还是以适配不同的引擎以及优化核心能力为主,同时会围绕 Iceberg 和上下游的引擎提供端到端的面向终端用户的数据管道能力。 目前相比于 Hudi、Delta Lake,Iceberg 在国内的关注度较少,这主要是由于其主要开发团队在技术推广和运营上面的工作偏少,而且 Iceberg 的开发者多为海外开发者,但是现在已经有越来越多大公司加入到了 Iceberg 的贡献中,包括 Netflix、Apple、Adobe、Expedia 等国外大厂,也包括腾讯、阿里、网易等国内公司。邵赛赛非常看好 Iceberg 未来在国内发展的前景,在他看来,一个好的技术架构可能暂时不引人瞩目,但最终还是会得到更多人的认可。随着国内推广的增多,以及国内开发者在这个项目上的投入、运营,未来在国内 Iceberg 前景可期。 关注我并转发此篇文章,私信我“领取资料”,即可免费获得InfoQ价值4999元迷你书! 原文章作者:InfoQ,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
倪腴
发表于
昨天 12:08
最后回复
乔雅娴
昨天 12:43
3524
15
智慧社区系统开发解决方案,武汉智慧平安小区建设
智慧社区系统开发解决方案,武汉智慧平安小区建设智慧社区采用先进的软件技术架构,具有高性能、高可靠性,能实现统一的数据管理、信息流处理、资金流处理、硬件管理、商户管理,为客户提供成熟可靠的智慧社区运营系统及社区全产业生态解决方案。 智慧社区系统开发解决方案咨询电微:【138--2315--3201】http://ln.ruiec.com/storage/image/2021/01/23/1611367404152834.jpeg核心优势1、社区大数据管理平台管理服务数据实时分析,决策有理有据,实现集团旗下物业数据管理一体化2、业主掌上管家让业主足不出户解决生活日常,提升物业服务、 加强物业与业主之间的互动,让业主享受5A服务3、智慧物业管理后台系统全面财务报表系统、超稳定风控服务平台、线上缴费可公可私结算,管理权限设置严格明确,专属权限-老板可远程监控4、物业办公平台实现物业管理的移动互联网化,高效提升物业管理人员办公效率5、商户服务平台打造高效、安全且易商业变现的物业服务系统,实现周边商户合作共赢,助力物业增收6、政府主导型社区管理平台全面解决政府、物业、居民的关注难点,市级统建或街道社区自建,可进行辖区内所有社区的综合管理及数据分析http://ln.ruiec.com/storage/image/2021/01/23/1611367411705063.jpeg六大解决方案1、物业解决方案平台具备多种费用催缴和支付方式,更有多种营销手段提高收缴率,线上线下收费一样方便。2、移动办公管理解决方案 有需要系统开发请联系我QQ:2756126100搭载专属物业办公平台,帮助物业实现全面移动化办公需求。线上发布物业工作通知与动态,线上投诉回访,与业主线上高效沟通,均可一站完成。3、小区移动服务解决方案平台在设计之初,就是为了解决移动互联时代的物业服务体验问题,所有物业服务的流程环节,参与各方均可通过手机完成一个公众号集成所有系统一套物业管理系统集成管理物业旗下所有社区一套物业管理系统同步管理智能门禁、停车道闸、智能访客、智慧安防等硬件设备4、业委会管理解决方案平台为业委会提供筹备成立、业主大会电子投票、账目管理、账目公开、动态发布、移动协作等一站式管理解决方案。5、智慧商城解决方案依托居民日常支付和日常消费的线上线下一体化融合,通过社区服务站和商圈、商城,打造社区周边电商经济,重点发展线上2公里社区商圈和在线商城,真正实现社区O2O商业模式落地。6、增值收入解决方案平台独创全新盈利体系,整合社区流量,无需物业运营也可轻松获利。
T13823153201
发表于
昨天 10:33
最后回复
T13823153201
昨天 10:33
7
0
大数据+大营销,腾信股份逆势发力终见曙光
今年的6·18已经启动了,你准备好买买买了吗? 6月第一天,各家电商平台就忙着晒出首张“6·18”成绩单,如淘宝,开场不足2小时,淘宝直播成交额达20亿。当前,直播带货强劲崛起。而直播和短视频也成为了目前最火爆的全民娱乐方式,未来将会更进一步,迎来更大风口。 随着直播和短视频的火热和快速发展,流量红利背后吸引着众多企业入局分羹。专业的数字营销公司腾信股份以“大数据+大营销”切入布局,并通过资源配置优化实现业绩增长,去年归属上市公司净利润更是翻番。 01 随着流量井喷式爆发,加上显著的营销效应,短视频成为最炙手可热的领域。自2016年起,短视频平台已开始在探索广告、电商导流、品牌活动等多元的变现模式。另一形式——直播,由于李佳琦、薇娅等直播带货网红的异军突起,2019年被称为直播带货元年,2020年半年过去,直播板块的争夺依然战火熊熊。 从传统的“双微”到如今的“南抖北快”,凡是聚集流量的地方必然少不了营销,短视频和直播带来的全新流量成为了各方角逐、深耕的新战场。 在社交媒体环境下,尤其是短视频语境中,KOL或网红已成为信息的中转节点,对品牌传播起着重要的作用。目前各平台有大量在10万+量级以上的网红,在众多的网红中,如何找到最适合自己品牌的,制定正确的媒介组合策略,对于资源和精力有限的广告主来说是一件非常困难的事情。 为解决广告主的痛点,专业的数字营销公司通过大数据剖析客户大量数据实现精准营销,如每一次营销主题活动,每一次內容的转变或对策的调节,都可以通过实时监控系统总流量、转换率、注册人数、销售量等数据的转变,即时地开展调节。 腾信股份作为最早涉足数字营销行业的企业之一,主营业务分为数字整合营销服务及大数据技术服务,其在大数据、人工智能领域具有创新的产品研发能力,从数据整合与沉淀、数据分析与处理、数据应用等方面建立了大数据生态,以“大数据+大营销”的模式解决客户精准获客和制定营销策略的痛点,通过数据和技术实现推动营销效率的提升。 据了解,基于自身大数据及研发优势,腾信股份可为客户开发高度个性化大数据系统,为客户提供定制性的数据产品服务和行业咨询报告服务,目前已在“汽车、快速消费品、教育、金融”等传统产业领域开始落地应用。 在媒体资源方面,腾信股份顺应行业趋势,加大了对腾讯、百度、今日头条等互联网头部媒体的资源采购力度,优化视频端和移动端的资源配置,根据其2019年年报,视频端和移动端的营业成本占比达到了80.71%,其中,视频端的占比同比增长了14.52%,移动端应用的占比同比增长了529.18%。 腾信股份2019年年报:营业成本构成 腾信股份在近期的公告中表示,短视频、网红、抖音平台、网红带货等形成聚焦效应以及消费行为带来的巨大转变,公司以QQ、奇艺、芒果TV、小米、优土豆为代表的视频端,和以QQ朋友圈、今日头条、一点资讯等为代表的移动端应用类客户收入在2019年实现了同比增长。 当前,短视频和直播相关的概念股也备受资本市场关注、如网红概念、今日头条概念等。昨日(3日),今日头条概念股持续走强,截至收盘,万润科技、腾信股份、广博股份、省广集团、佳云科技等7股涨停,科达股份、赛为智能、环球印务等涨逾7%,其他多股跟涨。 02 随着新技术的应用,互联网尤其是移动互联网快速发展,门户网站、视频网站、社交媒体及移动搜索等互联网媒体纷纷涌现,具有更广泛的覆盖率,为营销传播信息传达给营销受众提供了更加便利的渠道,进一步刺激了广告主的营销需求,并推动着广告行业规模的进一步增长。 据统计数据,在2019年整体经济环境下行、广告主对2019年整体经济市场的信心有所波动的情况下,大部分专业的数字营销公司,在2019年都实现了或多或少的盈利增长,这实属不易。 新锐商业与营销媒体平台TopMarketing统计了营销行业21家最具有代表性的上市公司2019年年报,这21家公司分别为:蓝色光标、科达股份、利欧股份、省广集团、华扬联众、天龙集团、数知科技、佳云科技、汇量科技、联建光电、思美传媒、华谊嘉信、天下秀、引力传媒、腾信股份 、麦达数字、众引传播、因赛集团、博瑞传播、宣亚国际、天与空。 据统计数据,2019年实现净利润同比增长的公司有15家,分别为华谊嘉信、蓝色光标、利欧股份、华扬联众、麦达数字、天龙集团、博瑞传播、思美传媒、腾信股份、佳云科技、天与空、天下秀、众引传播、引力传媒、汇量科技。 其中,增长最快的5家公司为麦达数字、腾信股份、利欧股份、天龙集团、博瑞传播。腾信股份以归属净利润同比增长116.62%排名第二。 据腾信股份2019年年报,公司2019年共实现营业收入148,059.86 万元,同比增长11.15 %;实现利润总额6,091.37万元,同比增长393.44%;实现归属于上市公司股东的净利润3,426.29万元,同比增长 116.62%。 值得一提的是,腾信股份的大数据业务在保持现有数字营销大数据业务优势的基础上,尝试与更多的传统行业进行产业融合应用。公司积极培育“腾信大数据+传统产业”的新模式,在“快消、3C、汽车、地产、旅游、大健康”等现有优势行业中进行产业渗透,完成与传统产业的数据融合、数据收集、数据分析、数据分享等业务布局,从而进一步拓宽大数据业务类型并扩大业务规模。大数据业务已成为公司未来业绩快速增长的重要支撑点。 据艾瑞咨询最新报告,今年受突发公共卫生事件影响,预计2020Q1中国网络广告市场规模为1212.1亿,环比增速出现较大程度下滑。但由于在线教育、游戏等行业广告主投放需求增加,以及线下营销预算向线上渠道转移等原因,与去年同期相比依旧有较小幅度的增长。 总体来看,突发公共卫生事件更大程度推动了企业对网络广告的关注和探索,同时随着事件情况好转,消费者被搁置的消费需求和欲望将被集中激发,长期来看,未来各行业的营销活跃度会有不同程度地增加,尤其是旅游、餐饮等以线下消费场景为主的行业。因此,随着未来广告主对网络广告的投放需求逐渐加强,2020年全年中国网络广告市场依旧增长可期。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
湛仙媛
发表于
昨天 09:39
最后回复
湛仙媛
昨天 09:39
3338
0
2020年一季度AI&大数据类创业公司传播影响力TOP20:AI&大数据技术助力疫情防控
新冠疫情爆发以来,AI&大数据行业第一季度在疫情监测分析、人员物资管控、医疗救治、药品研发、后勤保障、复工复产等方面充分发挥重要作用,采用人工智能方式大大降低了病毒传播风险。 青创头条数据团队采用大数据技术监测了AI&大数据类创业公司,形成2020年一季度AI&大数据类创业公司传播影响力TOP20。受疫情影响,1月TOP20传播影响力低于月平均值8.3%,3月达到平均水平。 海康威视凭借在网络媒体的影响力,排名第一。天眼查、腾讯云、企查查、嘉楠、UCloud、旷视科技、商汤科技、金山云、腾讯优图进入前十。上榜企业中,人工智能公司占比为55%,大数据公司占比为25%,云计算公司占比为20%。 “天眼查基金捐款给一线记者”“特斯联为防控疫情提供智解决方案”“天眼查亿元补贴小微企业”是第一季度上榜AI&大数据类创业公司最具网络影响力的事件。第一季度与疫情相关的内容占比较高,AI防疫、融资成为高频词汇。国家出台政策以大基建为主的方向为有较强技术和系统集成解决方案的人工智能企业带来发展的机遇,人工智能与大数据将会迎来一个更快的发展。 创业公司传播影响力排行由中国青年报、中青华云联合出品,利用大数据采集+智能分析等技术评估、量化创业公司的重要事件在互联网中传播力、影响力,通过客观的数据结果让创业者、投资人、商业人士可以更高效、更准确地掌握创新行业、公司的发展状况和网络影响力。下一步,本产品将进一步评估、分析创业公司传播大事件和产品服务的网络影响力,提供分析报告、数据产品。 本文源自中国青年报客户端。阅读更多精彩资讯,请下载中国青年报客户端(http://app.cyol.com) 来源:青创头条 原文章作者:中国青年报,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
金静曼
发表于
昨天 09:01
最后回复
金静曼
昨天 09:01
2551
0
大数据安全研究综述
随着人工智能、云计算、移动互联网和物联网等技术的融合发展,传统的基于边界安全域和基于已知特征库的网络安全防护方式已经无法有效应对大数据环境下新的安全威胁。 通过对大数据环境下面临的安全问题和挑战进行分析,提出基于大数据分析和威胁情报共享为基础的大数据协同安全防护体系,将大数据安全技术框架、数据安全治理、安全测评和运维管理相结合,在数据分类分级和全生命周期安全的基础上,体系性的解决大数据不同层次的安全问题。 基于该安全防护体系,分析了数据安全的关键技术及其目前的发展现状,并展望和分析了大数据安全领域面临的挑战。全面的分析和研究了大数据安全的威胁、政策、标准、方案、关键技术和挑战,对开展大数据安全建设和工程应用有重要参考意义。 以大数据为代表的数据化、数字化是全球信息技术发展趋势之一。大数据技术的发展,引发了全球范围内技术、学术、产业以及安全的变革,已经成为全球发展的趋势,是国家和企业间的竞争焦点,直接关系到国家安全、社会稳定、经济发展和民计民生等诸多方面。 数据是网络的血液,是信息化时代得以持续发展的核心。云计算和物联网技术的快速发展,引发了数据规模的爆炸式增长和数据模式的高度复杂化。大数据技术成为继云计算技术之后,各国竞相争夺的信息化战略高地。 十八大以来,我国陆续发布《促进大数据发展行动纲要》、《大数据产业发展规划(2016-2020)》和《国家网络空间安全战略》等一系列重大文件,在夯实国家网络安全战略任务中,提出实施国家大数据战略、建立大数据安全管理制度、支持大数据信息技术创新和应用的纲领性要求。这些重要文件,为相关产业的融合发展、健康发展打开了巨大政策空间。 但是在大数据技术催生了大量创新业务应用模式并在党政军行业大规模应用的同时,也带来了许多前所未有的安全威胁,数据泄露、恶意代码、非法访问、拒绝服务攻击、账户劫持、不安全的API、基于大数据技术的新型攻击等安全问题,已成为大数据产业健康发展的最大障碍。 以数据为视角进行信息安全建设,对数据全生命周期为主线进行分类分级保护,明确“数据从哪里来(Where)、放在什么环境下(What)、允许谁(Who),什么时候(When)、对哪种信息(Which)、执行什么操作(How)”,做到全生命周期、全流转过程“可管可控”,满足“大数据参与者数据安全的要求”,是当前大数据安全建设的重要目标。 01 大数据安全问题挑战 传统的信息安全侧重于信息内容(信息资产)的管理,更多地将信息作为企业/机构的自有资产进行相对静态的管理,无法适应业务上实时动态的大规模数据流转和大量用户数据处理的特点。 大数据5V的特性和新的技术架构颠覆了传统的数据管理方式,在数据来源、数据处理使用和数据思维等方面带来革命性的变化,这给大数据安全防护带来了严峻的挑战。大数据的安全不仅是大数据平台的安全,而是以数据为核心,围绕数据全生命周期的安全。数据在全生命周期各阶段流转过程中,在数据采集汇聚、数据存储处理、数据共享使用等方面都面临新的安全挑战。 1.1 大数据采集汇聚安全 大数据环境下,随着IoT技术特别是5G技术的发展,出现了各种不同的终端接入方式和各种各样的数据应用。来自大量终端设备和应用的超大规模数据源输入,对鉴别大数据源头的真实性提出了挑战:数据来源是否可信,源数据是否被篡改都是需要防范的风险。 数据传输需要各种协议相互配合,有些协议缺乏专业的数据安全保护机制,数据源到大数据平台的数据传输可能给大数据带来安全风险。数据采集过程中存在的误差造成数据本身的失真和偏差,数据传输过程中的泄漏、破坏或拦截会带来隐私泄露、谣言传播等安全管理失控的问题。因此,大数据传输中信道安全、数据防破坏、数据防篡改和设备物理安全等几个方面都需要着重考虑。 1.2 大数据存储处理安全 大数据平台处理数据的模式与传统信息系统对数据的处理模式不同。传统数据的产生、存储、计算、传输都对应明确界限的实体(视为分段式),可以清晰地通过拓扑的方式表示。这种分段式处理信息的方式,用边界防护相对有效。 但在大数据平台上,采用新的处理范式和数据处理方式(MapReduce、列存储等),存储平台同时也是计算平台,采用分布式存储、分布式数据库、NewSQL、NoSQL、分布式并行计算、流式计算等技术,一个平台内可以同时采用多种数据处理模式,完成多种业务处理,导致边界模糊,传统的安全防护方式难以奏效。 (1)大数据平台的分布式计算涉及多台计算机和多条通信链路,一旦出现多点故障,容易导致分布式系统出现问题。此外,分布式计算涉及的组织较多,在安全攻击和非授权访问防护方面比较脆弱。 (2)分布式存储由于数据被分块存储在各个数据节点,传统的安全防护在分布式存储方式下很难奏效。 ①数据的安全域划分无效; ②细粒度的访问存储访问控制不健全,用作服务器软件的NoSQL 未有足够的安全内置访问控制措施,以致客户端应用程序需要内建安全措施,因此产生授权过程身份验证和输入验证等安全问题; ③分布式节点之间的传输网络易受到攻击、劫持和破坏使得存储数据的完整性、机密性难以保证; ④数据的分布式存储,增大了各个存储节点暴露的风险,在开放的网络化社会,对于攻击者而言更容易找到侵入点,以相对低成本就可以获得“滚雪球”的收益,一旦遭受攻击,失窃的数据量和损失是十分巨大的; ⑤传统的数据存储加密技术,在性能效率上面很难满足高速、大容量数据的加密要求。总结大数据的分布式存储主要的安全挑战归结为两方面:数据丢失和数据泄露的风险。 (3)大数据平台的访问控制的安全隐患主要体现在:大数据应用中的用户多样性和业务场景多样性带来的权限控制多样性和精细化要求,超过了平台自身访问控制能够实现的安全级别,策略控制无法满足权限的动态性需求,传统的角色访问控制不能将角色、活动和权限有效地对应起来。因此,在大数据架构下的访问控制机制还需要对这些新问题进行分析和探索。 (4)针对大数据的新型安全攻击中最具代表性的是高级持续性攻击(APT) 。由于APT的潜伏性和低频活跃性,使其持续性成为一个不确定的实时过程,产生的异常行为不易被捕获。传统的基于内置攻击事件库的特征实时匹配检测技术,对检测APT攻击无效。大数据应用为入侵者实施可持续的数据分析和攻击提供了极好的隐藏环境,一旦攻击得手,失窃的信息量甚至是难以估量的。 (5)基础设施安全的核心是数据中心的设备安全问题,包括传统的安全风险和特有的安全风险,传统的安全防范手段如网络防DDOS攻击、存储加密、容灾备份、服务器的安全加固、防病毒、接入控制、自然环境安全等;特有的安全风险,主要来自大数据服务所依赖的云计算技术引起的风险,包括如虚拟化软件安全、虚拟服务器安全、容器安全,以及由于云服务引起的商业风险等。 (6)服务接口安全。由于大数据平台支撑的业务应用多种多样,对外提供的服务接口千差万别,这对攻击者通过服务接口攻击大数据平台带来机会,因此,如何保证不同的服务接口安全是大数据平台的又一巨大挑战。 (7)数据挖掘分析使用安全。大数据的应用核心是数据挖掘,从数据中挖掘出高价值信息为企业所用,是大数据价值的体现。然而使用数据挖掘技术,为企业创造价值的同时,容易产生隐私泄露的问题。如何防止数据滥用和数据挖掘导致的数据泄密和隐私泄露问题,是大数据安全一个最主要的挑战性问题。 1.3 大数据共享使用安全 (1)数据的保密问题。 频繁的数据流转和交换使得数据泄露不再是一次性的事件,众多非敏感的数据可以通过二次组合形成敏感的数据。通过大数据的聚合分析能形成更有价值的衍生数据,如何更好地在数据使用过程中对敏感数据进行加密、脱敏、管控、审查等,阻止外部攻击者采取数据窃密、数据挖掘、根据算法模型参数梯度分析对训练数据的特征进行逆向工程推导等攻击行为,避免隐私泄露,依旧是大数据环境下的巨大挑战。 (2)数据保护策略问题。 大数据环境下,汇聚不同渠道、不同用途和不同重要级别的数据,通过大数据融合技术形成不同的数据产品,使大数据成为有价值的知识,发挥巨大作用。如何对这些数据进行保护,以支撑不同用途、不同重要级别、不同使用范围的数据充分共享、安全合规的使用,确保大数据环境下高并发多用户使用场景中数据不被泄露、不被非法使用,是大数据安全的又一个关键性问题。 (3)数据的权属问题。 大数据场景下,数据的拥有者、管理者和使用者与传统的数据资产不同,传统的数据是属于组织和个人的,而大数据具有不同程度的社会性。一些敏感数据的所有权和使用权并没有被明确界定,很多基于大数据的分析都未考虑到其中涉及的隐私问题。在防止数据丢失、被盗取、被滥用和被破坏上存在一定的技术难度,传统的安全工具不再像以前那么有用。如何管控大数据环境下数据流转、权属关系、使用行为和追溯敏感数据资源流向,解决数据权属关系不清、数据越权使用等问题是一个巨大的挑战。 02 大数据安全发展现状 2.1 国际发展现状 随着大数据的安全问题越来越引起人们的重视,包括美国、欧盟和中国在内的很多国家、地区和组织都制定了大数据安全相关的法律法规和政策,以推动大数据应用和数据保护。 美国于2012年2月23日,发布《网络环境下消费者数据的隐私保护-在全球数字经济背景下保护隐私和促进创新的政策框架》,正式提出《消费者隐私权利法案》,规范大数据时代隐私保护措施。并在《白皮书》中呼吁国会尽快通过《消费者隐私权利法案》,以确定隐私保护的法治框架。 欧盟早在1995年就发布了《保护个人享有的与个人数据处理有关的权利以及个人数据自由流动的指令》(简称《数据保护指令》),为欧盟成员国保护个人数据设立了最低标准。2015年,欧盟通过《通用数据保护条例》(GDPR),该条例对欧盟居民的个人信息提出更严的保护标准和更高的保护水平。 在《2014至2017年数字议程》中,德国提出于2015年出台《信息保护基本条例》,加强大数据时代的信息安全。2015年2月25日,德国要求设置强硬的欧盟数据保护法规。 澳大利亚于2012年7月发布了《信息安全管理指导方针:整合性信息的管理》,为大数据整合中所涉及到的安全风险提供了最佳管理实践指导。11月24日,对1988年的《隐私法》进行重大修订,将信息隐私原则和国民隐私原则统一修改为澳大利亚隐私原则,并于2014年3月正式生效,规范了私人信息数据从采集、存储、安全、使用、发布到销毁的全生命周期管理。 在数据安全的标准化方面,美国走在前列,在大数据安全方面,ITU-T SG17制定了《移动互联网服务中的大数据分析安全要求和框架》《大数据即服务安全指南》《电子商务业务数据生命周期管理安全参考框架》等,NIST发布了《SP 1500-4 NIST 大数据互操作框架:第四册 安全与隐私保护》等标准,ISO/IEC也发布了关于隐私保护框架、隐私保护能力评估模型、云中个人信息保护等标准,对大数据的安全框架和原则进行了标准化定义。 在数据安全的产品解决方案和技术方面,国外知名机构和安全公司纷纷推出先进的产品和解决方案。著名咨询公司Forrester提出“零信任模型”(Zero Trust Model),谷歌基于此理念设计和实践了BeyondCorp体系,企业可不借助VPN而在不受信任的网络环境中安全的开展业务;IBM InfoSphere Guardium能够管理集中和分布式数据库的安全与合规周期;老牌杀毒软件厂商赛门铁克(Symantac)将病毒防护、内容过滤、数据防泄漏、云安全访问代理(CASB)等进行整合,提供了包含数据和网络安全软件及硬件的解决方案;操作系统霸主微软聚焦代码级数据安全,推出了Open Enclave SDK开源框架,协助开发者创建以保护应用数据为目的的可信应用程序。CipherCloud联合Juniper推出了云环境下数据安全的产品解决方案,提供云端企业应用的安全访问和可视化监控。 2.2 国内发展现状 鉴于大数据的战略意义,我国高度重视大数据安全问题,近几年发布了一系列大数据安全相关的法律法规和政策。 2013年7月,工业和信息化部公布了《电信和互联网用户个人信息保护规定》,明确电信业务经营者、互联网信息服务提供者收集、使用用户个人信息的规则和信息安全保障措施要求。 2015年8月,国务院印发了《促进大数据发展行动纲要》,提出要健全大数据安全保障体系,完善法律法规制度和标准体系。 2016年3月,第十二届全国全国人民代表大会第四次会议表决通过了《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出把大数据作为基础性战略资源,明确指出要建立大数据安全管理制度,实行数据资源分类分级管理,保障安全、高效、可信。 在产业界和学术界,对大数据安全的研究已经成为热点。国际标准化组织、产业联盟、企业和研究机构等都已开展相关研究以解决大数据安全问题。2012年,云安全联盟(CSA)成立了大数据工作组,旨在寻找大数据安全和隐私问题的解决方案。2016年,全国信息安全标准化技术委员会正式成立大数据安全标准特别工作组,负责大数据和云计算相关的安全标准化研制工作。 在标准化方面,国家层面制定了《大数据服务安全能力要求》《大数据安全管理指南》《大数据安全能力成熟度模型》等数据安全标准。由于数据与业务关系紧密,各行业也纷纷出台了各自的数据安全分级分类标准,典型的如《银行数据资产安全分级标准与安全管理体系建设方法》《电信和互联网大数据安全管控分类分级实施指南》《JR/T 0158-2018证券期货业数据分类分级指引》等,对各自业务领域的敏感数据按业务线条进行分类,按敏感等级(数据泄漏后造成的影响)进行数据分级。安全防护系统可以根据相应级别的数据采用不同严格程度的安全措施和防护策略。 在大数据安全产品领域,形成了平台厂商和第三方安全厂商的两类发展模式。阿里巴巴不但是全国最大规模电子商务公司,也是最大规模公有云服务商,围绕其掌握的电子商务、智慧城市数据,致力于数据治理,反欺诈等数据安全工作;通信巨头华为依赖其布局全球的通信运维网络,建立了可共享访问的“华为安全中心平台”,可实时查看全球正在发生的攻击事件;第三方安全厂商阵营,除了有卫士通、深信服、绿盟等传统综合性网络安全企业,诸多创业公司也如雨后春笋般出现,包括明朝万达、天空卫士、中安威士等,上述企业围绕数据防泄漏(LDP)、内部威胁防护(ITP)和数据安全态势等产品的数据安全整体解决方案和产品也各有优势;与此同时,物流行业霸主顺丰深知数据安全重要性,也在自身业务领域积极开展了围绕物流全生命周期、基于区块链的数据安全实践,成效显著。 03 大数据安全保障框架 大数据与传统数据资产相比,具有较强的社会属性。如图1所示,为实现安全防护目标,需要融合安全治理、技术、标准、运维和测评来系统性地解决大数据的安全问题。从安全治理着眼,以安全技术、安全运维和安全测评为支撑,构建流程、策略、制度、测评多重保障体系。同时,需要以标准为保障,实现安全互联协同,达到多维立体的防护。 图1 大数据安全保障框架 3.1 大数据安全总体技术框架 大数据的安全技术体系是支撑大数据安全管理、安全运行的技术保障。以“密码基础设施、认证基础设施、可信服务管理、密钥管理设施、安全监测预警”五大安全基础设施服务,结合大数据、人工智能和分布式计算存储能力,解决传统安全解决方案中数据离散、单点计算能力不足、信息孤岛和无法联动的问题。大数据的总体安全技术框架如图2所示。 图2 大数据安全技术框架 3.2 大数据安全治理 大数据的安全治理体系的目标是确保大数据“合法合规”的安全流转,保障大数据安全的情况下,让其价值最大化,来支撑企业的业务目标的实现。大数据的安全治理体系建设过程中行使数据的安全管理、运行监管和效能评估的职能。主要内容包括: (1)构架大数据安全治理的治理流程、治理组织结构、治理策略和确保数据在流转过程中的访问控制、安全保密和安全监管等安全保障机制。 (2)制定数据治理过程中的安全管理架构,包括人员组成,角色分配、管理流程和对大数据的安全管理策略等。 (3)明确大数据安全治理中元数据、数据质量、数据血缘、主数据管理和数据全生命周期安全治理方式,包括安全治理标准、治理方式、评估标准、异常和应急处置措施以及元数据、数据质量、数据标准等。 (4)对大数据环境下数据主要参与者,包括数据提供者(数据源)、大数据平台、数据管理者和数据使用者制定明确的安全治理目标,规划安全治理策略。 3.3 大数据安全测评 大数据的安全测评是保证大数据安全提供服务的支撑保障,目标是验证评估所有保护大数据的安全策略、安全产品和安全技术的有效性和性能等。确保所有使用的安全防护手段都能满足大数据中主要参与者安全防护的需求。主要内容包括: (1)构建大数据安全测评的组织结构、人员组成、责任分工和安全测评需要达到的目标等。 (2)明确大数据场景下安全测评的标准、范围、计划、流程、策略和方式等,大数据环境下的安全分析按评估方法包括基于场景的数据流安全评估、基于利益攸关者的需求安全评估等。 (3)制定评估标准,明确各个安全防护手段需要达到的安全防护效能,包括功能、性能、可靠性、可用性、保密性、完整性等。 (4)按照《大数据安全能力成熟度模型》评估安全态势并形成相关的大数据安全评估报告等,作为大数据安全建设能够投入应用的依据。 3.4 大数据安全运维 大数据的安全运维以技术框架为支撑,主要确保大数据系统平台能安全持续稳定可靠运行, 在大数据系统运行过程中行使资源调配、系统升级、服务启停、容灾备份、性能优化、应急处置、应用部署和安全管控等职能。具体的职责包括: (1)构建大数据安全运维体系的组织形式、运维架构、安全运维策略、权限划分等。 (2)制定不同安全运维流程和运维的重点方向等,包括基础设施安全管控、病毒防护、平台调优、资源分配和系统部署、应用和数据的容灾备份等业务流程。 (3)明确安全运维的标准规范和规章制度,由于运维人员具有较大的操作权限,为防范内部人员风险,要对大数据环境的核心关键部分、对危险行为做到事前、事中和事后有记录、可跟踪和能审计。 04 大数据安全防护技术体系 4.1 以数据为中心的安全防护要素 近几年,随着人工智能、云计算、大数据技术和移动互联网等新技术的应用,网络攻防环境正在发生快速的变化。传统的基于边界安全域和已知特征库的防护方式,已经无法应对新的安全威胁。 本文提出的大数据安全防护技术体系,基于威胁情报共享和采用大数据分析技术,实现大数据安全威胁的快速响应,集安全态势感知、监测预警、快速响应和主动防御为一体,基于数据分级分类实施不同的安全防护策略,形成协同安全防护体系。围绕以数据为核心,以安全机制为手段,以涉及数据的承载主体为目标,以数据参与者为关注点,构建大数据安全协同主动防护体系。 以数据为中心进行安全防护的要素如图3所示。 图3 以数据为中心的安全防护要素组成 (1)数据是指需要防护的大数据对象,此处指大数据流转的各个阶段包括采集、传输、存储、处理、共享、使用和销毁。 (2)安全策略是指对大数据对象进行安全防护的流程、策略、配置和方法等,如根据数据的不同安全等级和防护需求,实施主动防御、访问控制、授权、隔离、过滤、加密、脱敏等。 (3)安全产品指在对大数据进行安全防护时使用的具体产品,如数据库防火墙、审计、主动防御系统、APT检测、高速密码机、数据脱敏系统、云密码资源池、数据分级分类系统等。 (4)防护主体是指需要防护的承载大数据流转过程的软硬件载体,包括服务器、网络设备、存储设备,大数据平台、应用系统等。 (5)参与者是指参与大数据流转过程中的改变大数据状态和流转过程的主体,主要包括大数据提供者、管理者、使用者和大数据平台等。 4.2 主动防御的大数据协同安全防护体系 传统的安全防护技术注重某一个阶段或者某一个点的安全防护,在大数据环境下需要构建具有主动防御能力的大数据协同安全防护体系,在总体上达到“协同联动,体系防御”的安全防御效果。 大数据协同安全防护体系必须具备威胁的自动发现、策略决策的智能分析、防御策略的全局协同、安全资源的自动控制调度以及安全执行效果的综合评估等特征。其中威胁的自动发现和防御策略的全局协同是实现具有主动防御能力大数据协同安全防护体系的基础。 大数据的安全并不仅仅是大数据平台的安全,大数据的安全应该以数据生命周期为主线,兼顾满足各个参与者的安全诉求。大数据的安全动态协同防护体系架构如图4所示。 图4 主动防御的大数据协同安全防护体系 4.3 大数据协同安全防护流程 大数据协同安全防护强调的是安全策略全局调配的协同性,安全防护手段的主动性,以威胁的自动发现和风险的智能分析为前提,采用大数据的分析技术通过安全策略的全局自动调配和防护手段的全局联动。具有主动防御能力的大数据协同安全防护流程如图5所示。 图5 大数据协同安全防护流程 05 大数据安全关键技术 5.1 数据采集 (1)数据智能分级分类标注技术 对数据进行分类分级,按照数据的不同类别和敏感级别实施不同的安全防护策略,施加不同的安全防护手段,是目前业界主流的实践。而对于数据来说,不同业务涉及的数据不同,分类就不同。 分类通常是按照实际业务场景进行数据类别划分。分级是实施安全防护的基础,是按照数据属性的高低不同和泄漏后造成的影响危害程度来进行不同数据等级的划分。数据等级划分的三要素包括影响对象、影响范围和影响程度。分类与分级相辅相成,数据分类分级是安全策略设计的前提。 数据智能分级分类标注技术主要实现对结构化、非结构化、半结构化的数据按照内容属性、安全属性、签名属性等不同视角进行标注,标记的方法包括基于元数据的标注技术、数据内容的标记技术、数据属性的标注等,为后续数据的分级分类存储、数据的检索、数据的隐私保护、数据追踪溯源和数据的权责分析提供依据。 数据分级分类标签有很多种,按照嵌入对象的格式可分为结构化数据标签、非结构化数据标签;按照标签的形式可分为嵌入文件格式的标签和数字水印。 (2)数据源安全关键技术 数据源可信验证技术,该技术主要是保证采集数据的数据源是安全可信的,确保采集对象是可靠的,没有假冒对象。包括可信认证以及生物认证技术等。 (3)内容安全检测技术 对采集的数据集进行结构化、非结构化数据内容的安全性检测,确保数据中不携带病毒或者其他非安全性质的数据内容。数据的安全检测常用的有基于规则的监测技术、基于机器学习的安全检测技术和有限状态机的安全检测技术等。 5.2 数据传输安全 该技术较为成熟,主要针对大数据数据流量大、传输速度快的特点,确保数据动态流动过程中,大流量数据的安全传输,从数据的机密性和完整性方面保证数据传输的安全。该技术主要包括高速网络传输加密技术、跨域安全交换、威胁监测技术等。 5.3 安全存储计算 (1)大数据安全存储技术 大数据安全存储技术主要是解决针对云环境下多租户、大批量异构数据的安全存储,实现安全存储主要包括冗余备份和分布式存储下的密码技术、存储隔离、访问控制等技术。 大数据环境下的密码技术主要实现分布式计算环境下的密码服务资源池技术、密钥访问控制技术、密码服务集群密钥动态配置管理技术、密码服务引擎池化技术,提供高效、并发密码服务能力和密钥管理功能,满足大数据海量数据的分布式计算、分布式存储的加解密服务需求。 存储隔离技术主要是针对数据不同的安全等级对数据进行隔离存储,包括逻辑隔离和物理隔离两种方案;分级分类存储是按照数据的重要程度和安全程度,结合隔离存储实现数据的安全存储和访问控制。 与上述叠加式安全思想不同,文献提出的可信固态硬盘设计,基于存储内安全(In-Storage Security)思想,把对数据的访问控制从主机上的系统软件下放到底层存储,内部在保持块接口的前提下实现了数据的细粒度访问。在针对一些保密要求不高的安全场景下,相比于采用加密手段的存储安全解决方案,效率更高,策略更灵活。 (2)备份恢复技术 备份恢复技术主要是实现对大数据环境下的特殊数据,如元数据、密集度很高的数据或者高频次访问的数据进行,通过非安全手段实现的安全防护技术,通过数据同步、数据复制、数据镜像、冗余备份和灾难恢复等方式实现的安全保护。 5.4 数据安全共享 (1)区块链 区块链是包含了分布式数据存储、点对点传输、共识机制、加密算法等技术的创新应用模式,具有去中心、去信任、集体维护和可靠数据库等特点。 区块链技术使用多个计算节点共同参与和记录,相互验证信息有效性,可有效确保数据不被篡改,即对数据信息进行防伪,又提供了数据流转的可追溯路径;分布式节点的共识机制使得即使单一节点遭受攻击,也不会影响区块链系统的整体运行,这种分布式存储及加密机制可有效降低数据集中管理的风险,在一定程度上提高数据的安全性,并最大限度保护隐私。 (2)跨网跨域数据交换 数据在跨网跨域之间进行交换,需要对数据交换内容、交换行为、交换过程做到可管、可视、可控。跨网跨域交换技术利用信息加密、可信计算、身份认证、签名和摘要、内容识别等技术为数据提供跨地域、跨领域、跨部门的多源异构海量数据安全共享交换能力,确保数据在共享交换过程中的安全。 (3)监控审计 为了对数据安全共享中的异常事件、违规行为和业务运行情况等进行全面的了解和事后安全查漏补缺等处理,监控审计技术主要通过分析的各种安全事件日志,通过关联分析、数字取证、事件追踪溯源、异常行为的监控、数据血缘分析等,同时通过实时监控确保数据共享的安全。 (4)共享审查 共享审查技术,是数据在共享发布后,为了确保数据有偿共享、无偿共享、分时共享、分区共享、定向共享、主动分发等不同的数据共享机制下,数据的安全共享和数据安全保护策略,包括合规性、安全性、敏感消息发现等审查策略,支撑未来不同数据共享模式下的数据安全。 5.5 密文计算 密文计算技术针对大数据环境中密文数据应用困难的问题,提高以密文状态存储的敏感数据的计算效率和安全性。主要研究内容包括:同态加密技术、安全多方计算技术、可验证计算技术、密文检索等技术。 (1)同态加密 同态加密分为有限同态加密和全同态加密两大类。全同态加密(FHE)技术允许对密文数据进行任意次数多项式函数运算。基于格上运算困难问题和基于军阵近似特征向量的GSW同态加密方案是目前主要的两类全同态加密方案。 前者具有抗量子计算攻击的潜质,是一种带噪声的加密方案,通过自举进行噪声控制,可以有效控制噪声增长,让同态运算的次数变多,性能提高。后者将密文构造成一个矩阵进行运算,避免了密文维数膨胀,只需公钥就可以进行同态运算。 全同态加密可以用于云环境下的数据密文计算、安全多方计算、基于同态加密的隐私保护机器学习模型训练、联邦学习等场景。同态加密只保证数据的机密性,而不保证完整性。全同态加密可与可验证计算结合,提供机密性和完整性的安全保证。目前,全同态加密的效率依旧是实用化的瓶颈,亟待进一步突破。 (2)安全多方计算 MPC(安全多方计算)在1986年由姚期智院士提出以来,经过三十多年的发展,目前已朝多个分支发展:零知识证明、可验证计算、门限密码学等。目前,该领域的研究,计算效率已大幅提高,主要用于解决针对具体应用的高效安全多方计算协议、特殊安全模型设计等。 目前多数的安全多方计算基于电路模型设计,包括混淆电路(garbled circuit)、秘密共享(secret sharing)、RAM模型等。计算效率和安全性依然是多方安全计算的瓶颈性问题,针对多方安全计算的高扩展性协议、与区块链技术结合的隐私智能合约、安全多方计算的形式化证明等是当前的研究热点。 (3)联邦学习 联邦学习(Federated Learning)最早于2016年由谷歌提出,原本用于解决安卓终端在本地更新模型的问题,保障数据交换时候的终端数据、个人数据隐私,在多参与方或多计算节点之间开展高效的机器学习。根据数据集的不同,联邦学习分为横向联邦学习、纵向联邦学习和联邦迁移学习。目前联邦学习正发展成为下一代人工智能协同算法和协作网络的基础。 在联邦学习中,需要共享数据的用户通过加密样本对齐、加密模型训练、效果激励形成闭环的学习机制。在工程实现中,可以通过同态加密技术,将本地模型参数和特征参数进行加密后共享到可信的第三方,在不暴露自身数据的情况下,通过可信的第三方中心进行损失计算和梯度汇总,并对汇总结果计算总梯度值,将结果解密分发给各参与方,各参与方再根据第三方中心反馈的结果,完成本地模型参数更新,完成模型特征共享和联合训练。 联邦学习在人工智能和大数据应用场景下,可以实现数据隔离、信息和模型参数的加密计算和交换,并能够保证计算模型质量无损,可以实现参与各方保持独立性情况下,满足用户隐私保护和数据安全的需求,是目前研究的热点之一。存在的难点是,如何应对数据中毒、模型更新中毒、模型规避攻击、梯度参数反向数据推理等对抗攻击和隐私泄露。 (4)可验证计算 在非信任的开放云环境中,攻击者有可能通过恶意软件或供应链攻击破坏计算机并试图破坏数据的完整性。可验证计算(Verifiable Computing)允许数据所有者检查数据和计算的完整性。 该方案与全同态加密结合使用,可以提供机密性和完整性的综合解决方案。在可验证计算方案中,数据所有者将其数据以及所需计算的规范提供给我们称为证明方的某个(通常功能更强大的)实体。然后证明者输出指定计算的结果以及 “证明”,证明该输出是正确的。文献将可验证计算归为MPC的分支。 在文献中,对比了同态加密、安全多方计算和可验证计算在不同云安全场景下的适应性和乘法计算性能:VC性能最优,全同态加密性能最差。可验证计算可以较好的解决非信任云环境下的数据完整性保护问题。 (5)密文检索 密文检索技术提出密文检索服务架构,研究优化存储架构和检索算法等提升检索效率的方法,研究支持多关键词查询、模糊查询、语义查询等多场景下的密文数据多功能检索服务的实现方法。密文检索技术是在保证数据机密性的情况下,保证数据检索的高效性和精确性的关键技术。大数据环境下的密文检索技术研究有重要的应用价值。 5.6 数据使用安全 数据使用安全技术主要是实现数据在对外提供服务的过程中,防止存在非法数据内容信息,如谣言新闻、政治敏感信息、诬陷言论、色情暴力、淫秽信息的肆意传播。实现数据使用安全的关键技术有数据内容监测防护、数据隐私保护和身份认证等。数据内容监测防护是实现监测公开的数据不存在非法信息,隐私数据保护是对敏感的数据进行隐藏、过滤或者屏蔽等防止隐私敏感数据泄露,身份认证是实现对数据的使用范围进行控制。 (1)细粒度访问控制技术 大数据平台为用户提供数据访问服务,在数据访问过程中存在数据被非授权使用的安全风险,从而导致数据泄露、推导或恶意传播。因此大数据需要提供访问控制技术。 传统的访问控制,如基于权限规则控制技术、自主访问控制技术和基于安全级的访问控制技术等,在大数据环境中,各种层出不穷的创新业务模式下控制效果相对有限,在大数据环境下基于业务场景和数据流的安全需求,实现基于任务的访问控制和基于属性访问控制。实现对不同场景访问控制授权策略来灵活设定用户对共享数据的使用权限,从而实现数据细粒度的安全使用和共享。 (2)数据脱敏技术 数据脱敏技术针对海量、多源、异构数据在汇聚过程中面临的敏感及隐私数据泄露问题,实现大数据环境下隐私数据不被泄露,同时通过脱敏后的数据不影响数据的可用性。 研究数据共享与管理、数据交换与应用、跨领域数据流通的特定场景下敏感及隐私数据安全受控交换技术,促进数据资源安全汇聚、共享和交换,确保大数据敏感信息不泄露。通过脱敏规则对某些敏感信息进行数据变形,从而实现大数据环境下隐私数据不被泄露,同时保证脱敏后的数据不影响可用性。 数据脱敏技术主要包括脱敏目标确定、脱敏策略制定以及脱敏实现。脱敏目标确定较为关键的部分是数据敏感程度的分级和确认,是脱敏策略制定的依据。在制定脱敏策略时,选择脱敏算法是重点和难点,可用性和隐私保护的平衡是关键,既要考虑系统开销,满足业务系统的需求,又要兼顾最小可用原则,最大限度的保护用户隐私。 目前的脱敏技术主要分为如下三种: 第一种基于数据加密的技术:采用一定的加密算法覆盖、替换信息中的敏感部分以保护实际信息的方法。例如,采用密码学的算法(如散列、加密等)对原始数据进行变换。该方法属于低层次脱敏。 第二种基于数据失真的技术:使敏感数据只保留部分属性,而不影响业务功能的方法,例如,采用随机干扰、乱序、匿名化模型(K-匿名化、I-多样化)等技术处理原始信息内容,但要求一些统计方面的性质仍旧保持不变。该方法使用的是不可逆算法,适用于群体信息统计或(和)需要保持业务属性的场景。 第三种可逆的置换算法,兼具可逆和保证业务属性的特征,可以通过位置变换、表映射、算法映射等方式实现。 在具体的脱敏实现时,按照作用位置、实现原理不同,数据脱敏可以划分为静态数据脱敏和动态数据脱敏,两者的区别在于,是否在使用敏感数据时才进行脱敏。 5.7 数据安全销毁 (1)残留数据粉碎技术 残留数据粉碎技术是为了确保删除的数据不存在非法残留信息和从删除数据中进行恢复,而造成数据信息的泄露。残留数据粉碎技术主要包括实现数据的分布式环境下的元数据删除技术、缓存数据的删除技术、回收站数据的删除技术和磁盘残留信息的删除与写入技术等。 (2)销毁流程完整性验证技术 数据销毁流程完整性验证技术,就是要确保数据的删除不存在非法的数据留存或者残留信息,不再由于窃取或者非正常操作造成泄露。数据销毁的完整性验证技术可以使用流程闭环、分组限删除元数据和业务数据、多次读写等方式实现数据的销毁流程闭环,确保数据不存在留存副本。 5.8 数据安全管理 (1)安全态势感知与监测预警技术 安全态势感知技术是实现对整个平台的基础设施,平台系统和数据流转过程的安全势态进行探测、分析和可视化呈现,包括不同时间段的态势,不同维度的态势。通过安全威胁情报知识和各类安全态势信息的大数据分析,让管理人员对大数据环境的安全现状实时掌握,支撑对整个大数据系统精细化运维和管理。 监测预警技术为大数据环境下从数据源、大数据平台和大数据流转提供全方位、全视角的统一威胁发现与预警能力,通过主动发现危险信号为整个平台协同安全防护提供信息。包括高级威胁监测识别、危险入侵预警、威胁信号主动推动等。 (2)安全元数据管理和数据监管技术 安全元数据管理技术是在大数据平台的数据资产元数据的基础之上增加安全属性,包括增加数据的标签、安全级别等属性,来实现对数据资产的血缘分析与追踪溯源等安全操作。 数据监管技术是确保保证数据被合法使用、正确流转和共享交换。包括流转过程中的数据权属关系、使用行为、数据流向、风险系数等,现数据资源全生命周期流转过程的全过程可管、可控。 (3)安全策略管理 安全策略管理模块实现对数据安全要求的策略基线的维护和管理,同时根据监测预警模块反馈的威胁信息,生成全局动态协同数据安全防护决策策略。数据安全防护决策策略具有持续动态变化的特性,可以把形成的数据安全防护策略包传递给安全组件管理模块,由该模块实现从策略到配置的转换,将策略落实到大数据网络平台中,从而实现真正的协同防护联动。 (4)安全审计技术 为了对大数据平台中的异常事件、违规行为和业务运行情况等进行全面的了解和事后安全查漏补缺等处理,大数据安全审计技术通过各种安全审计策略对大数据基础设施、系统平台和应用服务的各种安全信息进行关联分析、数字取证、事件追踪溯源、数据追查取证和血缘分析等。 06 研究展望与挑战 6.1 针对党政军等领域高安全敏感数据,数据安全合规性是第一需求,需要在相关法律、标准规范约束下,形成体系化的解决方案和产品 目前大数据和云平台厂商聚焦于IAAS层安全和数据平台(DAAS)安全,IT设备厂商聚焦于IAAS层安全,而第三方安全厂商聚焦于数据安全(包括云应用安全)。能够提供云和大数据整体安全解决方案和相关产品的安全厂商缺乏,体系性的安全防护解决方案和产品欠缺。针对党政军等高敏感领域的私有云环境,鲜有厂商能够提供整体安全解决方案和产品。 另外,从云和大数据安全的标准化方面来看,国际、国内、行业相关的云和大数据安全标准还不健全,核心标准还在制定中,需要加快标准化进程,尽快制定针对行业的相关标准,形成完善的数据安全标准体系。 6.2 数据是流动的价值,需要在大数据安全中树立数据全生命周期管控理念,执行多维度防护措施 在军队和党政大数据和云应用环境中,主要的角色有云服务提供者、云服务使用者和云服务监管者。在数据权属方面,与公有云类似,数据的所有权属于云服务使用者(如军队或政府各业务部门),云服务提供者(部队或政府各信息服务部门)和监管者(部队或政府各信息通信指挥管理机构)一般不具有对用户(云服务使用者)数据的拥有权和使用权。 需要有效利用密码技术在数据的存储、传输、交换共享、使用等环节进行多维度的防护,提供分层、分域、分级别的多维度数据安全防控手段。亟待提供的大数据安全防护需求包括: 数据存储安全需求,防御多租户环境下的数据存储安全隐患,通过加密手段满足云存储加密、对象存储系统加密、块存储加密、镜像加密、网盘加密等需求;数据计算使用安全需求,防御多租户环境下的计算安全隐患,通过综合运用密码和权限管理技术满足密文计算、云主机预启动授权需求、应用系统敏感数据加密需求、桌面云终端用户认证需求和云数据库加密需求;数据传输安全需求,防御虚拟网络环境下的数据传输安全隐患,通过运用密码技术满足网络安全传输需求、租户之间的安全互联需求、租户安全接入需求和租户本地网络与VPC安全互联需求等;数据可信共享安全需求,避免云计算环境下的信任危机,通过运用密码技术实现为云中的身份认证、云应用系统权限管理、云环境下应用系统的信任服务及跨域认证需求。 6.3 在数据安全方面,要突出一体化安全设计,与云平台厂商深度合作 随着云计算基础设施的逐步建立和完善,数据资源迁入云中成为常态和必然趋势。此时数据安全需求更多体现为大数据安全需求。实际情况是大数据平台厂商对大数据平台本身的安全防护投入较少,如主流的大数据开源框架Hadoop,仅主要实现了认证(依赖Kerberos)和权限管控(Sentry)。 国内外较有影响力的大数据平台提供商也因为依赖Hadoop技术体制,在数据安全方面几乎没有新的增量。因此,大数据环境与云计算环境紧密绑定成为业界解决大数据安全的现实做法,通过云平台本身来提升大数据平台的安全性。这种功能协作易于实现,但同时也带来了更多的安全隐患。在云基础设施安全保护方面,在公有或混合云中,用户的数据驻留在第三方实际控制并管理的服务器上,服务器启动过程易受攻击。 因此,需要采用运行时保护技术,对服务器硬件、固件提供验证;在宿主操作系统安全保护方面,虚拟机逃逸是一种可以利用虚拟机软件或者虚拟机中运行软件的漏洞进行攻击,并且攻击者还通常会利用宿主操作系统本身的漏洞,通过网络方式入侵宿主操作系统,从而轻易穿透云安全防护体系,攻击用户虚拟机或者云上的数据。 因此,需要加固宿主操作系统,修补系统漏洞,控制本地访问,提升网络访问的认证强度;在虚拟化层安全防护方面,存在镜像、模板和快照文件缺乏保护措施、虚拟化环境超级管理员权限大不可信、虚拟机间可能相互攻击和控制、虚拟客户机内部监控手段缺失、老旧硬件设备兼容性软件代码安全漏洞等现象,需要采取一体化设计的思路,通过虚拟机防火墙、数据中心网络安全路由交换以及实时、中立的强监管措施进行防范。 6.4 在云端数据和应用安全防护方面,要针对云端应用特点提供不同粒度防护 Web是用户访问大数据中心常用的技术体制,云端Web应用运行在开放的云环境中,面临多种安全威胁,需要对常见的Web漏洞(如SQL注入、跨站脚本、恶意指令等)、恶意扫描工具、异常访问等进行安全防护,基于可灵活配置的动态策略,执行对应用的全面保护。 大数据应用在接受用户访问时,既要快捷高效,也要保证按需受控,对不同角色用户赋予的权限应尽可能细粒度控制,满足大数据资源、云资源和云应用安全接入和访问需求。具体可根据不同的策略对用户接入进行限制与管理,比如通过用户登录IP地址、用户接入时间点、用户接入次数等进行接入限制;提供增强认证服务,如加入CA认证、双因子认证等;云上应用提供更细粒度访问权限和操作权限,避免非法访问行为。 用户使用大数据的过程中,大数据平台管理员(内部人员)可能恶意或过失危害大数据平台用户的信息安全,导致用户数据丢失、泄露,严重时甚至危及国家安全。所以对大数据平台管理员进行行为审计功能,能够在危害发生前,起到震慑不法分子作用,危害发生后可用于对事件的追溯和证据的提取,同时也帮助大数据的用户随时了解管理员的行为,消除大数据用户的安全顾虑。另一方面要对大数据应用的用户行为进行审计,能通过分析审计数据,排查恶意用户的行为。 6.5 智能、便捷、高效、透明成为数据安全防护的必然需求 随着网络环境越来越复杂、攻击手段越来越隐蔽,数据安全运维的难度也越来越大。在云和大数据时代,安全分析人员要处理的数据规模与其处理能力严重不匹配,攻击报警得不到及时响应,应急处理效率低下,已有安防手段协同困难,对安全人员技术要求高。这造成用户虽部署了安全设备依旧被入侵,部分用户对增加安全防护手段后,系统性能下降、使用不便有顾虑。通过提高分析人员数量来应对大数据的思路显然不可行。 可行的方法一是防护模式方面,基于SECAAS的思想,利用安全资源池、密码资源池、SDS(软件定义安全)、SDP(软件定义边界)和CASB(云安全代理)等实现方式,实现安全保密能力的云服务化提供,并形成体系化协同防护的能力;二是利用人工智能技术提升对安全大数据的处理能力,提供辅助决策能力,提升对安全威胁监测分析的能力和对安全事件的响应速度。 作为数据安全的极为重要的关键技术,基于格困难问题的同态加密具有抗量子攻击的特性。目前已经从第一代的基于理想格和基于最大近似公因子问题的加密方案、第二代的基于格上LWE(Learning with Error)同态加密,发展到了目前的第三代:基于矩阵近似特征向量的GSW同态加密方案。同态加密自举的效率问题、安全性设计(如抗侧信道攻击等)、电路隐私等目前依旧是该技术的难点,阻碍其投入实际广泛应用。 另一方面,数据分级分类在具体工程实践中,面临巨大的技术挑战。人工标注和分类分级效率满足不了大数据环境的使用需求,智能化自动化的数据分级分类将是需要重点突破的技术。 由于各业务领域对数据的分类和分级标准不一,要做到智能化,需要根据不同业务领域设计相应的智能分级分类算法。对于不断产生的新类别的数据和计算过程中产生的中间数据的动态分级分类,则需要更为智能化的算法来进行标注。 07 结 语 大数据环境下数据的安全成为防护的核心,新的安全威胁如数据泄漏、数据隐私保护、数据机密性和完整性保护、恶意内部人员、高级持续性威胁(APT)、数据丢失、数据滥用和恶意使用、数据共享等都面临着新的技术挑战。 本文结合工程实践,提出了大数据协同安全防护体系,并对其原理、架构和关键技术进行描述,可对实际工程应用提供借鉴。未来,我们将继续对数据智能分级分类标注、密文计算、多方安全计算等核心关键技术进行进一步的研究,并实现工程化实际应用。 作者简介 >>> 张锋军(1975—),男,学士,研究员级高级工程师,主要研究方向为网络空间安全、云计算和大数据安全、信息系统智能管控技术; 杨永刚(1981—),男,硕士,高级工程师,主要研究方向为大数据、云计算和信息安全技术; 李庆华(1977—),男,学士,高级工程师,主要研究方向为软件工程、云计算与大数据安全技术; 许 杰(1978—),男,博士,高级工程师,主要研究方向为云计算与大数据安全、信息安全; 牛作元(1983—),男,硕士,高级工程师,主要研究方向为云计算与大数据安全; 石 凯(1992—),男,硕士,工程师,主要研究方向为云计算与大数据安全。 选自《通信技术》2020年第五期 (为便于排版,已省去原文参考文献) 原文章作者:顺海药安食美科普公益,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
呆贺兖
发表于
昨天 01:41
最后回复
呆贺兖
昨天 01:41
3356
0
中国大数据发展指数排名公布,全国31个城市成都升至第四
6月4日,红星新闻记者从成都市新经济委官网获悉,在大数据战略重点实验室日前发布的《大数据蓝皮书:中国大数据发展报告No.4》中,成都在全国31个重点城市2019年大数据发展指数排名中位列第四,紧随深圳、广州、杭州之后,较2018年提升一位,持续保持中西部第一。 ↑图据成都市新经济委官网 《大数据蓝皮书:中国大数据发展报告No.4》是我国首部针对大数据领域进行全面梳理和总结的蓝皮书。自2017年首次编撰出版,至今已连续出版四册,作为每届数博会期间对外发布的重要理论创新成果,获得了业界和社会的广泛关注。 红星新闻记者注意到,在分项排名中,成都的政用指数、商用指数均排在第四,表现较为稳定。 从区域来看,东部地区大数据的发展遥遥领先,而中部和西部地区平均得分差距较小。 红星新闻记者 叶燕 邹悦 编辑 陈怡西 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
羿荏辣
发表于
前天 21:28
最后回复
羿荏辣
前天 21:28
5594
0
大数据助力滞销辣椒变网红
原本滞销的辣椒,经过大数据的分析和策划,引入新型互联网营销思维,变成网红辣椒后,两日销出192吨、销售额300多万元,相当于国内顶级辣酱厂商一整年的三樱椒(朝天椒)采购量。 临颍县辣椒种植规模较大,受新冠肺炎疫情影响,辣椒销量下滑,甚至出现严重滞销的情况,农民收入明显下降。3月12日,临颍县辣椒协会发布求助函,向社会爱心人士及企业寻求三樱椒滞销的解决办法。 “农民的需求,就是我们努力的方向。我们要利用大数据助农扶贫!”看到求助函后,市政务服务和大数据管理局党组书记、局长陈四新迅速组织漯河市大数据运营有限公司、河南云帆电子科技有限公司、河南临颍辣椒市场等,当晚就与临颍县农业农村局和临颍县辣椒产业协会对接,依托大数据技术和互联网资源优势,分析全网数亿条数据,包括电商平台销售数据、购买后评价、购买用户分布等。 “通过大数据分析得出:临颍辣椒有肉厚、口感好、口味香辣、辣度适中这四大特点,主要购买人群集中于中部地区和沿海一二线城市,覆盖人群和‘抖音’平台用户高度重合。”陈四新分析说:“有好产品,还找到了目标客户,一定要让临颍辣椒由滞销变畅销!” 3月15日,市政务服务和大数据管理局联合抖音官方制订“辣椒红了”爱心助农计划方案,通过引入新型互联网营销思维,输出可复制的原产地农户“直播+带货”互联网销售模式,拓宽销售渠道。在有效解决当地农产品滞销问题的同时,向外宣传临颍本地特色文化,形成文化与产业相结合的特色产业双输出。3月20日、25日,经过两次现场考察,该局完善了爱心助农计划方案,确定了活动流程。 4月10日,临颍县辣椒在大家的期盼中登上了“抖音”平台,通过网红直播推广并与临颍县政府副县长史有来互动的模式,向全国推广临颍县三樱椒。4月10日、11日正式活动期间,共进行了16场直播,累计观看量达2630.9万次,单场直播最高观看量218.6万次,直播期间最高同时在线人数118750人,曝光量超同期其他农产品直播推广活动十倍以上。两日直播共完成134130个订单,累计销售额3086013.2元,累计销出辣椒192吨,相当于国内顶级辣酱厂商一整年的三樱椒采购量。活动期间,“漯河”“漯河临颍”“临颍”“临颍辣椒”“临颍三樱椒”等关键词的热搜指数提高百倍。 原文章作者:光明网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
狂抗
发表于
前天 20:00
最后回复
湛仙媛
前天 20:04
1250
2
大数据就业方向有什么?如何进行选择?
大数据行业现在这么火,薪资这么高,吸引了一大批人转行大数据。很多对大数据不了解的人也想转行,只是听人说大数据就业方向有很多,就业前景很好就来参加培训了,今天小编就给大家介绍下大数据就业方向有什么?如何进行选择? 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。它具有大量、高速、多样、低价值密度、真实性等5大特点。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技。所以大数据的应用领域很广,就业方向也比较多。 学习大数据首先就要学习Java相关的知识,一般要学习Java基础和JavaEE核心两个方面,这两方面学完了可以达到初中级Java工程师的水平,所以大数据的就业方向之一就是Java开发工程师,不过如果选择Java开发方向那么接下来就要继续深入学习Java开发而不是大数据相关知识了。 其次大数据的就业方向还有大数据Hadoop开发工程师和大数据Spark开发工程师,因为在学习过程中会学到Hadoop生态体系和Spark生态体系。随着数据规模不断增大,传统BI的数据处理成本过高企业负担加重。而Hadoop廉价的数据处理能力被重新挖掘,企业需求持续增长。而Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越。所以大数据Hadoop开发工程师和大数据Spark开发工程师在人才市场上都很吃香。 第三大数据的课程内容都学完后,学员的就业方向还可以选择大数据开发工程师,据职友集数据显示全国大数据开发工程师的平均薪资为18880元/月,薪资水平还是很高的。 以上就是大数据的一些就业方向,具体如何选择可以看你自己的个人兴趣。如果你想了解更多大数据相关的学习内容,可以在中公优就业官网咨询,或是小窗小U,如果条件允许的话欢迎你来我们的学习基地参观考察。 原文章作者:优就业浙江IT培训,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
兑笞
发表于
前天 16:42
最后回复
兑笞
前天 16:42
2067
0
卫星大数据,金融机构可靠的新型调研武器
近日,招商证券2020线上中期策略会正式启幕。会议邀请了百余位首席分析师以及来自多个行业的专业嘉宾,围绕投资策略展开深度对话。望眼科技商务总监勾静女士受邀参会并在会上作了“天眼洞察:卫星大数据金融应用探索”主题分享。 卫星遥感最早被应用于军事领域,早期由于制造难度大、发射成本高昂、数据采集精度有限以及大数据处理效率低下等原因,卫星数据迟迟未能完成在商用领域的有效应用。 近年来,随着小卫星组网、可重复运载火箭、星载设备等技术的成熟,卫星的发射成本以及数据精度得到了显著改善。同时,云计算和人工智能的加入替代了原本的人工分析数据,在提高数据分析服务效率的同时降低了数据分析的成本,使得卫星数据的商用成为可能。 金融历来是依靠数据驱动的行业,客户拓展、风险评估等业务需要使得各类数据在这里得到了密集的应用。勾静认为,相较于其他数据来说,卫星数据具有全覆盖、可追溯、客观真实、时空连续性、及时性等五大优势,是金融机构可靠的新型调研武器。 全覆盖是指地球周围数以千计的各类卫星不间断地对全球进行拍照,能够高效提取全球范围内的标的物信息,用于金融机构的评估辅助。 可追溯则是借助已有的卫星数据,金融机构可回溯历史三十年的标的情况。与人工尽调相比,卫星数据不但可以对信贷标的现在和未来的数据进行监控和提取,还可以比对信贷标的的历史发展及经营情况,从而对信贷标的进行资产评估和经营画像。 客观真实是由于数据的提取、分析全部基于卫星影像,不受人为因素干扰。数据具有极强的客观性,更加真实严谨。 时空连续性表现在卫星数据获取的方式稳定,不受时间、地域与当地政策等因素的影响,能够形成稳定的数据集供金融机构调取使用。 及时性指的则是卫星数据能够在突发事件发生后的第一时间获取相关影像,实时进行反馈。其数据频率可达到月频、周频甚至日频,远远领先于公告、财务报表、企业年报等传统数据,能够更早提供企业动态信息、提前揭示风险。 勾静介绍在金融行业,卫星数据应用场景日趋广泛,卫星数据已经被应用于矿产项目监控、大宗商品物流、房地产基建、固定资产盘点、工业开工率提取、地区经济发展研究等方面。为银行、基金、期货等各类金融机构提供了决策依据和风险防控。 以大宗商品物流为例,投资机构需要及时掌握库存数据以做出相应决策,高频、动态库存数据对其至关重要。通过连续数年对港口进行探测,望眼科技借助卫星影像结合算法模型,能够对大宗商品发货和到货港口库存进行长时间跟踪,为金融机构提供高频结构化库存数据,辅助其投资决策。 ▼利用卫星数据监控黑色产业链发货港大宗商品库存、航线海漂船只等。 矿产项目监控的卫星数据应用更为直接。遥感影像能够监测到偏远山区的露天矿产,借助遥感影像可以了解到矿山的开采进度。进一步结合运输车辆、属地夜光数据等还可对矿山开采是否正常进行评估。 ▼借助高分辨率卫星遥感数据,结合强大的算法分析能力,监控特定露天矿开采面积变化情况,预测产量。 图片来源:望眼科技 随着大数据时代的到来,对投资标的的分析管理已不再局限于阅读财务报表和建立财务预测模型。卫星数据为金融机构开展评估工作提供了另外的可能性。借助以卫星大数据为核心的时空数据,望眼科技能够助力金融机构快速、高效、全面了解客户,准确识别风险,打造行业核心竞争力! 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
郁婀娜
发表于
前天 15:20
最后回复
郁婀娜
前天 15:20
2530
0
在淘宝搜索“女友感动哭了”,看一圈下来真的成功笑哭了
随着现在大大小小的节日越来越多,男生送礼似乎成为了某种“刚需”,眼看着520才过,618的电商大促或许又免不了“表示表示”,更别提什么女友的生日、纪念日了。在互联网时代,也许淘宝等网购平台能够提供海量商品,但最关键的一步仍在于挑选的环节。 打开淘宝,在搜索栏中输入“女友感动哭了”,底下还会自动弹出一些类似搜索标签,可见这样的搜索并非个例。浏览了一圈相关商品,发现主要集中在抱枕靠枕、装饰挂件摆件、美容工具等类别,并支持个性化定制,大多都温馨可爱,不过也有几个着实让人对女朋友收到这样的礼物后是不是真的会“感动哭”产生深深的怀疑…… 1.“女友感到哭”迷惑礼物大赏 大家细品,这炫彩的灯光、这华丽的造型、这闪耀的镶钻镂空顶钻,然后自己的照片伴着电子元件音乐在五颜六色的灯光下不停旋转……再然后,就被感动哭了?不得不承认,这个商品也融入了非常多较为先进的功能(相较于十年前),比如可以远程遥控操纵相册旋转,甚至可以连接手机蓝牙播放音乐充当外放音响,但总有那么一点不太高级甚至看到自己的照片之后有点尴尬的感觉(如果照片没选好,尴尬感可能会瞬间翻番)……目前该商品底下并没有买家的评论,其实还真让人好奇他们的女朋友到底哭没哭的…… 说实话看到这个礼物之后,曾经的“非主流女孩”感到头皮一紧、四肢发凉,有一种自己拼命掩饰的黑历史被人从箱底翻出来的不安,甚至非常不巧这个图和文字,可能还曾经一度是自己的QQ头像、QQ空间背景,或者留言板的签名档,伴随着自己忧郁而又偶尔明亮的青春年华。强烈建议商家把上面的文字改写成“婄沵趉菿荖。莪蒝嬑莋沵寒颩狆哋汏扆、烮ㄖ芐哋陽傘……”,这样那种浓浓的怀旧情怀就会在女友打开礼物的时候直冲她的天灵盖,让她梦回2008,从而流下感动的泪水。 玫瑰、巧克力、项链、手链以及小熊娃娃……这个礼物组合似乎挑不出什么毛病,而且包装看上去精致且高档,是在表白、纪念日、七夕、情人节时非常应景的礼品,评论区也有不少好评。但或许是内容太过于中规中矩,布置上又千篇一律,难免让人觉得像是机器化大生产流水作业线上的标准化产品一样缺乏新意。特别提醒,特别熟的好哥们就不要一起买了,以防各自女友在晒朋友圈的时候看到对方女友的配图而兴致全无。 月亮似乎一直是爱情的美好象征,歌词里唱“摘下星星给你、摘下月亮给你”也是浪漫得不行,但是DIY一个这么逼真月球是不是对女孩子喜欢的月亮有什么误解?打开这个真实无比的月球灯是不是会有一种相当天文学家的冲动?但是就冲着封页图里这个“不感动包退”的勇气,一度让人觉得女友会哭成嫦娥。 重要的事情说三遍:这个不能真当礼物送,仅适用于娱乐、整蛊、活跃气氛!当适用于后三者情形时,会显得非常有趣,但倘若真用到正式场合,大概率会成功把女友气哭。 2.大数据精准推送—淘宝可能比你更了解你女友喜欢什么 精准推送多是指新媒体根据对大数据的信息化处理从而将人们想看的新闻、视频、段子、商品等置于优先位置。在传统媒体媒介中也存在精准推送如报纸不同版面,电视不同主题的台,广播不同波段不同主题等也属于精准推送范围。在新媒体的加入后,精准推送更加全面,数据更准确,范围更广,受众更多。随着信息技术的迅猛发展、大数据应用的兴起,算法推荐带来的信息定制化、资讯分众化已经得到较广泛应用。 以淘宝为例,它通过用户在APP内搜索浏览的商品内容,收集进数据库并进行分析,使用精准推送,将同类型(例如搜索某品牌的运动鞋就会出现该品牌其他或者类似品牌的运动鞋)或者相关(例如搜索婴幼儿服饰就会推送其他母婴产品)的产品推送到首页的“猜你喜欢”栏目。 事实上,淘宝所能触及的范围已经超过了其自身APP,甚至能从其他APP“感知到”商品数据,比如你在社交软件搜索或者提及某样产品,之后有可能打开淘宝就会在首页“凑巧”地看到。 当个人的数据汇集起来的时候,就能形成对特定地域、特定年龄层、不同性别的群体的购物偏好和特点的画像。马云在一次有关大数据的讲话中称:阿里想做二十一世纪的信息分享平台,并且拥有大量的数据。包括“双十一期间购买假发量最多的省份是哪几个”这样的冷门信息也能轻易被淘宝所掌握。 所以说,在海量数据以及强大的信息分析功能的加持之下,淘宝比你更了解你女朋友喜欢什么也就一点也不奇怪了。 3.精准推送的B面—警惕我们在大数据中“裸游” 通过算法精准推送一方面确实满足了人们多元化、个性化的信息需求。通过定制化、智能化的信息传播机制,实现了用户与信息的快速精确匹配,大大降低信息传播和获取的成本,为生活带来便利。 但是,算法推荐在带来高效与便捷的同时,我们也似乎时时刻刻都在被大数据所窥探,毫无秘密可言,甚至会引发诸如大量低俗劣质信息的推送、大数据杀熟等诸多乱象。 单说大数据对个人用户是好是坏都是难以站稳脚跟的,但无可置疑的是它在为我们提供更好的服务,更好的体验的同时也存巨大的风险。网络世界中的个人信息保护依旧是一大亟需优化的命题。 类似于前文所说的“女友感动哭了”的搜索内容会自动在搜索框下显示,其实也是大数据分析并形成搜索标签进行精准推送的例子。也许你会问,这些所谓“女友感动哭”的礼物可能不但不会让女友感动,甚至让人觉得啼笑皆非,是不是说明精准推送失败了? 严格来说,撇开“感动哭”中的夸张戏谑成分,精准推送的最主要的来源是真实发生的搜索、浏览商品记录或者真实发生的交易数据。也就是说,精准推送并不是在“猜”女生喜欢什么,它只是恰如其分地通过一些“给女友买礼物”的大数据,诚实地猜测到了男生觉得女生会喜欢什么。也许送礼物并没有什么标准答案,况且异性之间送礼物自古就是一门玄学。但是女友没有“感动哭”,大数据“并没有错”,大概是男生“一败涂地”。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
捞排轨
发表于
前天 10:17
最后回复
捞排轨
前天 10:17
3770
0
大数据、互联网、人工智能与实体经济深度融合 河北:开启数据驱动发展新模式
2019中国国际数字经济博览会在石家庄盛大开幕。记者 刘潇 摄 长城网讯(记者 李代姣 赵晓慧 段维佳)为推动河北省数字经济加快发展,近日,省政府印发了《河北省数字经济发展规划(2020-2025年)》(以下简称“规划”),规划明确了河北省发展数字经济的指导思想和实现路径,提出了发展目标和主要预期指标。4月21日下午,省政府新闻办举行新闻发布会,对规划的起草背景、总体考虑及主要内容进行了解读。 2025年 河北电子信息产业主营业务收入突破5000亿元 “当前,河北省正处在历史性窗口期和战略性机遇期,经济社会发展走到新旧动能转换的重要关口。科学编制并有效实施河北省数字经济发展规划,对抢抓新一轮科技革命和产业变革机遇,释放京津冀协同发展、雄安新区规划建设、北京冬奥会筹办提供的巨大发展势能,加快河北经济转型升级、实现高质量发展具有重大战略意义。”河北省发展和改革委员会党组成员、副主任赵文锋在新闻发布会上表示。 规划突出数字化、网络化、智能化发展方向,突出科技引领和产业支撑工作重点,突出创新驱动、数据驱动发展新路径,大力推动新一代信息技术与经济社会深度融合,提升京津冀数字经济协同发展水平,为构建现代化经济体系提供持续动力。 根据规划,到2022年,大数据创新应用体系基本形成,制造业数字化转型取得突破性进展,农业、服务业数字化水平显著提升,信息化公共服务能力明显提高,建成一批包容性强、适应性广、政策环境优的数字场景应用市场,基本形成以大数据产业、制造业数字化、服务业数字化、电子信息产业为支撑的数字经济发展格局。 到2025年,全省数字技术融合创新及信息产业支撑能力显著增强,电子信息产业主营业务收入突破5000亿元,产业数字化进入全面扩张期,两化融合指数达到94,共享经济、平台经济等新模式、新业态蓬勃发展,基本建成全国的数字产业化发展新兴区、制造业数字化转型示范区、服务业融合发展先行区。 位于雄安新区市民服务中心的京东X无人超市。记者 王林红 信贺宁 张青果 摄 雄安将打造全国数字经济创新发展领军城市 “建设雄安国家数字经济创新发展试验区。充分发挥国家试验区的示范带动作用,在智能城市建设、数字要素流通、体制机制构建等方面先行先试,打造全国数字经济创新发展的领军城市。”赵文锋表示,规划对河北省数字经济空间布局、功能定位和产业发展进行了总体统筹。 除大力建设雄安国家数字经济创新发展试验区外,河北还将推动京津冀大数据综合试验区创新发展,深化大数据在环保、交通、健康、旅游等领域的创新应用。 石家庄市规划建设数字经济产业园,布局大数据平台服务和应用开发中心,推动数字技术与生物产业融合发展,打造成为具有核心竞争力的“中国数字新城”。廊坊市壮大智能终端、新型显示、机器人、软件与服务等产业规模,建设大数据云计算产业聚集区和物流金融大数据应用示范区,着力打造中国北方IT产业名城。张家口市统筹大数据产业与可再生能源协调发展,推动云计算数据中心、绿色智能服务器、软件与信息服务等产业聚集,加快怀来以5G创新应用为特色的数字经济产业园建设,打造中国大数据产业创新发展高地。承德市强化大数据灾备基地功能,打造旅游大数据产业中心。秦皇岛市推动数字技术在智能制造、生物医药与生命健康等领域的创新应用,争创国家软件名城。 深化与京津数字经济领域的合作,协同建设新一代信息基础设施,加强数据中心和存算资源的协同布局,强化与京津多领域智慧应用合作,加快政务数据资源共享共用,推进一体化智能化交通管理,打造跨区域跨行业的工业互联网平台。 同时,河北还将打造一批特色鲜明、示范性强的重点园区。围绕培育数字经济核心产业,推动鹿泉经开区、京南·固安高新区、张北经开区等一批产业园区创新发展。围绕传统产业数字化改造,推动曹妃甸新区、邯钢工业区、沧州渤海新区等一批钢铁、化工重点产业园区率先转型。 长城汽车5G远程无人驾驶。 记者 王林红 摄 围绕7大任务集中发力助推数字经济高质量发展 规划提出实施包括构建现代化的数据资源体系、建设数字经济发展的创新体系在内的7项主要任务,助推数字经济高质量发展。 构建现代化的数据资源体系。建设新型、融合、集约、绿色的数字应用设施,提升数据资源汇聚、采集和分析能力,加快公共数据资源有序开放,推动大数据创新应用,培育数字要素市场。 建设数字经济发展的创新体系。提升产业创新能力,推进一流学科建设,汇聚人才要素资源,实施重大科技专项。 加快制造业数字化转型。实施智能化改造,推进网络化协同制造,发展服务型制造,建设工业互联网平台。 加快服务业数字化发展。推进生产性服务业数字化发展,大力发展数字金融,推进生活性服务业智能化发展,加快发展电子商务,大力发展数字文化创意服务。 推动农业数字化转型。构建农业农村信息服务系统,推广农业物联网应用,大力发展农村电商,丰富信息惠农服务。 加快发展新一代信息技术产业。大力发展通信设备制造业,培育壮大半导体器件产业,做大做强新型显示产业,加快发展软件和信息技术服务业,发展汽车电子及产品,培育发展人工智能及智能装备产业,布局区块链,发展网络安全产业。 培育新业态新模式。推广新零售,发展数字贸易,培育共享经济,发展平台经济,培育通证经济。 落户香河机器人小镇的全球领先的喷涂机器人制造商安川都林公司的生产测试线。王晓桐 摄 数据驱动发展 推动大数据、互联网、人工智能与实体经济深度融合 规划力求将河北数字经济发展摆在全国、全球的大格局下研究布局,注重学习借鉴先进地区做法和经验,注重听取企业家和专家的意见,并与国家有关政策文件对标对表。 把握数字经济的本质特征,注重发挥数据资源的关键生产要素作用,推动社会各领域数据资源的采集、汇聚、整合、存储和利用,开启数据驱动发展的新模式;注重把握数字经济发展的数字化、网络化、智能化特征,推动大数据、互联网、人工智能与实体经济的深度融合。 规划紧密结合河北经济社会发展实际,深入分析河北数字经济发展的基础条件和潜在优势,明确了预期发展目标,规划了不同区域的发展方向和空间布局,突出了钢铁、石化、汽车等传统产业以及农业农村的数字化转型,提出了打造数字雄安、数字冬奥、新型智慧城市等典型应用场景。 全面部署与重点突破相结合,为确保实现数字经济发展规划的目标任务,规划在统筹部署数字产业化、产业数字化及社会治理数字化等各方面任务的同时,还提出了雄安新区数字经济创新发展试验区、大数据产业创新发展、核心技术突破、汽车制造业数字化转型、新型智慧城市建设试点等20个重点专项行动计划,力求精准聚焦、重点突破,确保规划落地见效。 原文章作者:长城网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
柞枫
发表于
前天 10:03
最后回复
柞枫
前天 10:03
2428
0
Hadoop大数据分析及数据挖掘读书笔记,一文总结
个人看完这一章,对于数据挖掘的落地有了一个大概得了解,我们选择、使用、学习这些大数据的技术应该是结果导向的,这里会让人更清晰去选择技术,使用技术。 作者:Python工程师 数据挖掘基础 数据挖掘的概念: 从数据中“淘金”,从大量数据(文本)中挖掘出隐含的、未知的、对决策有潜在的关系、模型和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,这就是数据挖掘。 它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据技术和人智能智能技术的综合。 数据挖掘的基本任务: 包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、职能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。 1 目标定义 任务理解指标确认 针对具体的挖掘应用需求明确本次挖掘目标是什么?系统完成后能达到什么样的效果? 2 数据采集 建模抽样 抽样数据的标准,一是相关性、二是可靠性、三是有效性。 抽样的方式 随机抽样:比如按10%比例随机抽样等距抽样:比如按5%比例,一共100组,取20、40、60、80、100分层抽样:将样本分若干层次,每个层次设定不同的概率。从起始顺序抽样:从输入数据集的起始处开始。分类抽样:依据某种属性的取值来选择数据子集。如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。 质量把控 实时采集 3 数据整理 数据探索 对所抽样的样本数据进行探索、审核和必要的加工处理,是保证最终的挖掘模型的质量所必须的。 常用的数据探索方法主要包括两方面:数据质量分析,数据特征分析。 数据质量分析:得主要任务是检查原始数据中是否存在脏数据。包括缺失值分析、异常值分析、数据一致性分析。数据特征分析:在质量分析后可通过绘制图标、计算某种特征量等手段进行特征分析, 主要包括 分布分析:能揭示数据的分布特征和分布类型。可用直方图、饼图、条形图等展示对比分析:将两个相互联系的指标进行比较,从数据量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。比如,各部门的销售金额的比较、各年度的销售额对比。统计量分析:用统计指标对定量数据进行统计描述,常从集中和离中趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量,最广泛是均值和中位数;反映变异程度的指标则是对个体离开平均水平的度量,使用较广泛的是标准差(方差)、四分卫间距。周期性分析:分析某个变量是否跟着时间变化而呈现出某种周期变化趋势。贡献度分析:原理是帕累托法则(又称20/80定律)相关性分析:分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图。多元线性回归。 数据清洗 数据清洗主要是删除原始数据集中的无关数据、重复数据、平滑噪音数据,刷选调与挖掘主题无关的数据,处理缺失值,异常值等。 缺失值处理:删除记录、数据插补和不处理。 异常值处理:直接删除、提油现有变量,进行填补。 数据变换 数据变换主要是对数据进行规范化处理,将数据转换成“适当”形势,以适用与挖掘任务与算法的需要。 常见的数据变换方法,简单函数变换、规范化、连续属性离散化,属性构造,小波变换。 数据规约 数据规约产生更小但保持元数据完整性的新数据集。提高效率。主要包括属性规约和数值规约。 数据集成 数据来源往往分布在不同的数据源中,数据集成就是将数据源合并存在一个一致性的数据存储。 4 构建模型 样本抽取完并经预处理,对本次建模进行确认,是分类、聚合、关联规则、时序模式或者职能推荐,以便后续选用哪种算法进行模型构建。这一步是核心环节。 针对餐饮行业的数据挖掘应用,挖掘建模主要基于关联规则算法的动态菜品智能推荐、基于聚类算法的餐饮客户价值分析、基于分类与预测算法的菜品销售预测、基于整体优化的新店选址。 模型发现构建模型验证模型 5 模型评价 为了确保模型有效,需要对其进行测试评价,目的找出一个最好的模型。 为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的精准率。 设定评价标准多模型对比模型优化 6 模型发布 模型部署模型重构 小结 本章从一个知名餐饮企业经营过程中存在的困惑出发,引出数据挖掘的概念、基本任务、建模过程。 针对建模过程,简要分析了定义挖掘目标、数据取样、数据塔索、数据预处理以及挖掘建模的各个算法概述和模型评价。 如何帮助企业从数据中洞察商机、提取价值,这是现阶段几乎所有企业都关心的问题。通过发生在身边的案例,由浅入深引出深奥的数据挖掘理论,让读者感悟数据挖掘的非凡魅力。点赞 个人看完这一章,对于数据挖掘的落地有了一个大概得了解,我们选择、使用、学习这些大数据的技术应该是结果导向的,这里会让人更清晰去选择技术,使用技术。 Hadoop基础 大数据技术,是指从各种类型的数据中,快速获得由价值信息的能力。适用大技术的技术,包括大规模并行处理(MPP)数据库,数据挖掘,分布式文件系统,分布式数据库,云计算平台,互联网和可扩展的存储系统。 大数据特点4V 数据量大(Volume)数据类型复杂(Variety)数据处理速度快(Velocity)数据真实性高(Veracity) 当前,Hadoop已经成为了事实上的标准。 Hadoop除了社区版,还有其他厂商发行的版本。 Cloudera:最成型的发行版本,拥有最多的部署案例;Hortonworks:100%开源的Apache Hadoop唯一提供商。MapR:Amazon Elastic Map Reduce(EMR):这是一个托管的解决方案。 生态系统 Hadooop生态系统主要包括:Hive、HBase、Pig、Sqoop、Flume、Zookeeper、Mahout、Spark、Storm、Shark、Phoenix、Tex、Ambari Hive:数据仓库系统 用于Hadoop的一个数据仓库系统,它提供了类似SQL的查询语言,通过使用该语言, 可以方便地进行数据汇总,特定查询以及分析存放在Hadoop兼容文件系统中的大数据。 hive基于hdfs构建了数据仓库系统,它以hdfs作为存储,依赖于数据库(嵌入式的数据库derby或者独立的数据mysql或oracle)存储表schema信息,并完成基于sql自动解析创建mapreduce任务(由于mapreduce计算效率比较差,目前官方推荐的是底层计算模型采用tez或者spark)。 所以hive可以理解为:hdfs原始存储+DB Schema信息存储+SQL解析引擎+底层计算框架组成的数据仓库。 Hbase:分布式数据库 一种分布式、可伸缩的、大数据库存储库,支持随机、实施读/写访问。 Pig:工作流引擎 Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 sqoop:数据库ETL工具 为高效传输批量数据而设计的一种工具,其用于Apache Hadoop和结构化数据存储库如关系数据库之间的数据传输。 Flume:日志收集 一种分布式、可靠的、可用的服务,其用于高效搜集、汇总、移动大量日志数据 ZooKeeper[?zu:ki:p?(r)]:协同服务管理 一种集中服务、其用于维护配置信息,命名,提供分布式同步,以及提供分组服务。 HDFS:分布式数据存储系统 hdfs是大数据系统的基础,它提供了基本的存储功能,由于底层数据的分布式存储,上层任务也可以利用数据的本地性进行分布式计算。hdfs思想上很简单,就是namenode负责数据存储位置的记录,datanode负责数据的存储。使用者client会先访问namenode询问数据存在哪,然后去datanode存储;写流程也基本类似,会先在namenode上询问写到哪,然后把数据存储到对应的datanode上。所以namenode作为整个系统的灵魂,一旦它挂掉了,整个系统也就无法使用了。在运维中,针对namenode的高可用变得十分关键。 Mahout:算法集 一种基于Hadoop的机器学习和数据挖掘的分布式计算框架算法集,实现了多重MapReduce模式的数据挖掘算法。 spark:计算模型 一种开源的数据分析集群计算框架,建立于HDFS纸上。于Hadoop一样,用于构建大规模、低延时的数据分析应用。它采用Scala语言实现,使用Scala作为应用框架。 spark是现在大数据中应用最多的计算模型,它与java8的stream编程有相同的风格。封装了很多的计算方法和模型,以延迟执行的方式,在真正需要执行的时候才进行运算。既可以有效的做计算过程的容错,也可以改善我们的编程模型。 Spark是一款很棒的执行引擎,我们可以看到大部分的Spark应用,是作为Hadoop分布式文件系统HDFS的上层应用。 ( Spark 典型的取代了已经过时的MapReduce引擎,与Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)或者分布式计算框架Mesos一起工作,有时候同时与两者一起作为一个计划进行) 但是Cutting强调:“还有许多事情Spark是做不到的。”比如:它不是一个全文本搜索引擎;是Solr在Hadoop里扮演着这个角色。它可以运行SQL查询对抗Spark,但是它没有被设计成一个交互式查询系统,对此,Cutting提出,Impala可以实现交互查询。 如果你只是要需要进行streaming 编程或者batch 编程,那么你需要一个执行引擎,Spark就是很棒的一个。但是人们想做的事情远不止于此,他们想实现交互式SQL(结构化查询语言),他们想实现搜索,他们想做各种涉及系统的实时处理,如Kafka(一种高吞吐量的分布式发布订阅消息系统)…我认为那些认为Spark就是整个堆的人是确实存在的少数情况。 Storm: 一个分布式、容错的实时计算系统。 Shark[?ɑ:k]:SQL查询引擎 Hive on Spark,一个专门为Spark打造的大规模数据仓库系统,兼容Apache Hive。无需修改现有的数据或者查询,就可以用100倍的速度执行Hive SQL。Shark支持Hive查询语言、元存储、序列化格式及自定义函数,与现有Hive部署无缝集成,是一个更快、更强大的替代方案。 Phoenix: 一个构建在Apache HBase之上的一个SQL中间层,完全使用Java编写,提供了一个客户端可嵌入的JDBC驱动。 Tez: 一个机遇Hadoop YARN之上的DAG计算框架。它把Map/Reduce过程拆分成若干个子过程。同时可以把多个Map/Reduce任务组合成一个较大的DAG任务,减少Map/Reduce之间的文件存储。同时合理组合其子过程,减少任务的运行时间。 Amari:安装部署工具 一个供应、管理和监视Apache Hadoop集群的开源框架,它提供一个直观的操作工具和一个健壮的Hadoop Api, MapReduce: 说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。 ChuKwa: YARN:Hadoop 资源管理器 Hadoop HDFS HDFS被设计成适合在通用硬件上的分布式文件系统。具有如下特点 具有高度容错性的系统。设计用来部署在低廉的硬件上,提供高吞吐量,适合那些有超大数据集的应用程序,放宽了POSIX的要求这样可以实现以流的形式(streaming access)访问文件系统中的数据。 HDFS采用master/slave。一个集群由一个NameNode和多个DataNodes组成。 Active Namenode:主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求。Secondary NameNode:NameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;当 Active NameNode 出现故障时,快速切换为新的 Active NameNode。Datanode:Slave(有多个);存储实际的数据块;执行数据块读 / 写。Client:与 NameNode 交互,获取文件位置信息;与 DataNode 交互,读取或者写入数据;管理 HDFS、访问 HDFS。 Hive 概念 Hive最初是Facebook面对海量数据和机器学习的需求而产生和发展的,是建立在Hadoop上数据仓库基础架构,它可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。 Hive作为数据仓库,提供一系列工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 Hive定义了简单的类SQL查询语言,成为HQL,它允许熟悉SQL用户查询数据。 特点 支持索引,加快数据查询。不同的存储类型,如纯文本文件、HBase中的文件。将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时候。可以直接使用存储在Hadoop文件系统中的数据。内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具,支持用户扩展UDF函数来完成内置函数无法实现的操作。类SQL的查询方式,将SQL查询转换为MapReduce的Job在Hadoop集群上执行 Hive并不能够在大规模数据集上实现低延迟快速的查询,不能提供实时的查询和基于行级的数据更新操作。比如几百MB的数据集上执行查询一般有分钟级的时间延迟。所以它不适合低延迟的应用。最佳应用在大数据集的批处理作业,如网络日志分析。 Hive支持的数据模型 表:存在在HDFS目录底下,固定目录外部表:跟表差不多,指定目录 分区: 桶:对指定的列计算其哈希值,根绝哈希值切分数据,目的是并行,每个桶对应一个文件。 Hbase 概念 Hbase是一个分布式、面向列的开源数据库,利用HBASE技术可以在廉价PC服务器搭建大规模结构化存储集群。它不是关系型数据库,是一个适合非结构化的数据存储数据库。它利用Hadoop MapReduce来处理HBase中的海量数据,同时利用Zookeeper作为其协同服务。 采购LSM算法,后面继续深入研究,这个算法,是在内存中对未排序的值进行,拆分排序,比如N个数,每M个拆分一次做排序,那么每次寻找的计算量应该是N/M*log2M 特点 线性和模块化可扩展性严格一致的读取和写入表的自动配置和分片支持RegionServers之间的自动故障转移方便的基类支持Hadoop的MapReduce作业与Apache HBase的表易于使用的Java API的客户端访问块缓存和布鲁姆过滤器实时查询Thrift网管和REST-FUL Web服务支持XML、protobuf和二进制的数据编码选项;可扩展的基于JRuby(JIRB)的脚本;支持监控信息通过Hadoop子系统导出到文件或Ganglia Pig和Hive还为HBase提供了高层语言支持,这使得HBase上进行数据统计处理变得非常简单。Sqoop则为HBase提供了RDBMS数据导入功能,使用传统数据库向HBase迁移变得很方便。 原理 HBase构建在HDFS之上,其组件包括 Client、zookeeper、HDFS、Hmaster以及HRegionServer。Client包含访问HBase的接口,并维护cache来加快对HBase的访问。Zookeeper用来保证任何时候,集群中只有一个master,存贮所有Region的寻址入口以及实时监控Region server的上线和下线信息。并实时通知给Master存储HBase的schema和table元数据。HMaster负责为Region server分配region和Region server的负载均衡。如果发现失效的Region server并重新分配其上的region。同时,管理用户对table的增删改查操作。Region Server 负责维护region,处理对这些region的IO请求并且切分在运行过程中变得过大的region。 Hbase底层使用还是Hadoop的HDFS。同时包含3个重要组件, Zookeeper:为整个HBase集群提供协助的服务(信息传输);HMaster:监控和操作集群中所有的RegionServer;HregionServer:服务和管理分区(regions)。 **Region:**Hbase的Table中的所有行都按照row key的字典序排列。Table 在行的方向上分割为多个Region。、Region按大小分割的,每个表开始只有一个region,随 着数据增多,region不断增大,当增大到一个阀值的时候, region就会等分会两个新的region,之后会有越来越多的 region。 Region是HBase中分布式存储和负载均衡的最小单元。 不同Region分布到不同RegionServer上。 Region虽然是分布式存储的最小单元,但并不是存储 的最小单元。Region由一个或者多个Store组成,每个store保存一个 columns family。每个Strore又由一个memStore和0至多个StoreFile组成。memStore存储在内存中,StoreFile存储在HDFS上。 HBase和RDBMS的区别 HBASE设计的初衷是针对大数据进行随机地、实时地读写操作。区别 HBase数据模型 传统型数据库以行的形式存储数据,每行数据包含多列,每列只有单个值。在HBase中,数据实际存储在一个“映射”中,并且“映射”的键(key)是被排序的。类似JavaScript Object(JSON) HBase包含如下几个概念: 1 Row key 一条记录的唯一标示 2 column family 一列数据的集合的存储体,作为列簇 3 Column qualifier 在列簇中的每个列数据的限定符,用于指定数据的属性 4 Cell 实际存储的数据,包含数据和时间戳 小结 这里介绍大数据数据库HBASE的基础概念,分析了HBase的原理,主要包括其与RDBMS的对比、访问接口、数据模型等。最后结构HBase的架构图介绍各个模块组件,包括HMaster、HRegionServer、Zookeeper 大数据挖掘建模平台 本章首先介绍常用的大数据平台,采用开源的TipDM-HB大数据挖掘建模平台。 SOA架构,面向服务架构,以为着服务接口、流程整合、资源可利用、管控。 挖掘建模 经过数据探索与数据预处理,得到了可以建模的数据。 根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、职能推荐等模型。 原文章作者:加米谷大数据,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
我厢
发表于
前天 06:57
最后回复
窠驯
前天 06:59
2772
1
四川省大数据中心全文发布《四川数据开放指数报告(2019)》
进入数字经济时代,生产要素和产业结构正发生深刻变化。数据以其可复制、可共享、无限增长、无限供给和边际成本几乎为零的特点,成为联接创新、激活资金、培育人才、推动产业升级和经济增长的关键生产要素。新冠肺炎疫情给我省经济发展带来冲击和挑战,同时也为推动重构全球供应链和产业优化升级带来新的机遇。我省应顺势而为,加快推进数据开放。 为全面了解我省各市(州)数据开放现状,四川省大数据中心参照《全球数据开放晴雨表》《全球数据开放指数》《中国开放数林指数》相关指标体系设置,结合我省总体情况,从平台建设和数据发布两个维度对我省21个市(州)数据开放水平进行了分析评估,并在此基础上形成评估报告,旨在为我省各市(州)有效提升数据开放的能力与水平提供可行参考意见,推动我省数据开放工作,释放数据生产要素潜能。 现将报告全文公布如下。 原文章作者:四川省人民政府网站,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
汞床璞
发表于
前天 02:19
最后回复
悚舱擢
前天 02:46
2050
11
网贷大数据太不堪找不到下款的口子?网贷大数据花了黑了怎么养?
网贷多是以门槛低、流程简单、下款快吸引眼球,这些宣传词让人们普遍认为网贷十分好借,但是网贷也是会看借款人信用条件如何的。毕竟网贷机构能否盈利的关键点之一就在于风控是否到位。 网贷机构普遍采用网贷大数据作为风控手段,在网贷大数据系统里聚集着很多家网贷机构的用户信用信息,信用不佳用户如严重逾期用户难逃网贷大数据的“火眼金睛”,会在机构审核时被排查出局。个人网贷大数据太不堪的话,几乎找不到轻松下款的贷款口子。 但天无绝人之路,网贷大数据太不堪的用户可以尝试依靠一些办法下款。下面小编来给大家说一说具体如何操作。 网贷大数据不好怎么才能找到下款的口子? 1、贷款时多提供财力证明 如果借款人近期借款次数太多造成了网贷大数据“变花”,建议在贷款时多提供一些财力证明,表示自己能够负担得起债务。 2、提供一些抵押物,或者寻求担保人 网贷信用不好的话,去办理抵押贷款或者担保贷款不失为一种比较好的措施,这类贷款因为有抵押物或担保人作保障,对用户信用状况就不是那么的关心。 3、寻找未接入网贷大数据的网贷产品 不是所有的网贷机构都查看借款人的网贷大数据,在寻找贷款产品时,可以把目标放在这类产品上面。 4、修复网贷信用 互联网金融时代,虽然贷款很方便,一定要理性消费,理性借贷,理性借贷。注意按时还款,维护良好的信用记录。如果对自己的网贷数据有担心的朋友可以在微信里的首页搜索:普查信。自行查询网贷数据报告,该数据平台对接了2000多家网贷数据库,数据查询的较为准确。无论是网贷申请记录,网贷数据报告,网黑指数分,命中风险提示,逾期信息,起诉或者仲裁案件等数据都能够一一显示出来。 网贷大数据花了黑了怎么养? 许多网贷机构对借款人近期申请次数的要求是,在一周不超过3次且一个月不超过10次,为保险起见,网贷大数据花了的用户可以将申请网贷的频次降低在这个水平之下。 网贷大数据黑了的话,首先应该将网贷逾期欠款清理掉,然后将负债率控制控制,此外,还要注重其它的一些风险信息,比如通话概况有问题就优化通话数据,比如多平台借贷状况很严重近期就尽量不申请网贷。 相比央行的个人征信报告,个人信用记录的氛围更加广泛,出具的机构也更加多元,像普查信、芝麻信用分、腾讯信用分、百行征信等,都属于个人信用记录的一部分,整体而言更类似于网上说的大数据征信,是传统个人征信报告的有益补充。 目前,国家正在构建一张全方位无死角的“信用大网”,联通社会,信息共享,无论是征信报告还是个人信用记录,都是其中的重要组成部分。保护好自己的信用,对每个人来说,信用才是最大的资产与财富。 原文章作者:翠娟谈科技,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
兑笞
发表于
前天 02:02
最后回复
兑笞
前天 02:02
3377
0
转行大数据找工作难吗?有哪些岗位可以做
面对大数据越来越好的发展形势,我们可以明显地感觉到,企业对大数据的重视程度也越来越高,尤其是在大数据快速发展的大背景下,人才紧缺也成为常态。掌握大数据技术的专业人才,成为企业竞相争取的高端人才。很多人担心转行大数据培训找工作的问题,下面来给大家解解惑。 今年的大数据,无疑是得到了更为广泛地一轮传播,在疫情之下,我们随手点开网上各个平台的疫情地图实时数据报告,都能看到全国、甚至是全球的疫情动态,最新数据信息等。其背后,其实就是大数据技术在提供支持。 这一次,我们是扎扎实实地感受到了大数据的力量,也对大数据的应用和前景也有了更清楚的认识。那么如果是完全没基础的相关认识,转行大数据培训找工作好找吗?行业当中现有的大数据岗位很多,只要技术过关,找工作问题不大。 大数据相关的岗位,选择很多,同时各个岗位对专业技术的要求也各有侧重,想做相关的岗位,可以针对性地提升这部分的技能—— 1、数据分析师 技能要求:熟练搭建数据分析框架,掌握和使用相关的分析常用工具和基本的分析方法,进行数据搜集、整理、分析,针对数据分析结论给管理销售运营提供指导性的分析意见。 2、数据架构师 技能要求:熟练掌握Hadoop、Spark、Storm等生态系统,及其相关的组件如Yarn,HBase、Hive、Pig等,能够完成大数据相关解决方案的制定和执行,包括需求分析,平台选择,技术架构设计,应用设计和开发,测试和部署。 3、大数据工程师 技能要求:数据系统平台的开发,对主流的大数据技术平台及其框架组件,Hadoop、Spark等,都有熟练的掌握,能够根据需求来完成相应的开发工作。 4、数据仓库管理员 技能要求:指定并实施信息管理策略;协调和管理的信息管理解决方案;管理仓库的各个方面,比如数据外包,移动,质量,设计和实施。 关于转行大数据培训找工作难吗,有哪些岗位可以做,以上为大家做了一个简单的介绍。现在想入行做大数据,专业技能的掌握程度是非常关键的,技术过关,才能在转行当中快速找到工作。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
颛孙娅曦
发表于
前天 00:58
最后回复
颛孙娅曦
前天 00:58
5344
0
数字经济|河北廊坊:一家大数据中心的扩容
疫情期间,很多人在观看今日头条的短视频。然而,他们并不知道,为了让视频播放流畅,短短两个多月,位于河北省廊坊市的润泽国际信息港内,今日头条的服务器已经扩容了几千台。 润泽国际信息港是润泽科技发展有限公司在廊坊开发区建设的综合性数据中心产业园,5栋已建成的数据中心机房内,存放着今日头条、京东、华为等企业的成千上万台服务器。这些服务器支撑着人们的视听娱乐、网上购物、远程办公等各种线上活动。 图为润泽国际信息港A-18数据中心复工复产现场。通讯员赵海龙摄 专注主业,紧急扩容,数据中心稳定运行 机房到住处两点一线,24小时三班倒……这是张克春最近的工作状态。 作为润泽科技发展有限公司数据中心的负责人,在疫情期间,张克春既要做好疫情防控工作,又要保障数据中心正常运行,身上的担子可不轻。 数据中心的核心作用是为各行业数字经济产业平台提供基础支撑,保障稳定、安全、可靠的机房环境,保证业务不间断运行。 “受疫情影响,很多线下业务转到线上,在线办公、视听娱乐、政企数字化等行业网络流量暴增。这期间,数据中心服务客户的业务量增长了40%以上,很多企业都有扩容需求。”张克春说,特殊时期,他和同事们一方面要确保数据中心安全运行,另一方面要配合客户紧急扩容,忙碌是他们的工作常态。 张克春告诉记者,他们正在数据中心的整体供给上加大投入,今年将继续建设7栋数据中心机房,建成后可容纳7万个机架运营。 数据中心作为数字经济时代的数字银行和数据资源库,既是“新基建”的重要组成,也是“新基建”发展的核心IT基础设施,对数字经济的腾飞起到底层支撑作用。 2009年,在大部分人对“大数据”还不甚了解的时候,润泽科技发展有限公司董事长周超男已看好这个领域未来的发展前景,并在廊坊开发区投资建设了润泽国际信息港项目。“廊坊距北京城市中心仅40公里,是理想的‘大数据走廊’。”周超男说。 在周超男看中廊坊时,廊坊也正在发力“大智移云”产业,该市以开发区战略性新兴产业示范基地(大数据产业)为重点,加强大数据产业基地建设,全面提升园区的基础设施水平和政务服务水平,积极引进大数据产业资源落户。 扎根适宜的土壤,经过十余年的耕耘,目前,润泽科技已建成22.5万平方米的高等级数据中心,国内很多家喻户晓的互联网企业,都是润泽科技的终端客户。 搭建平台,深挖数据价值,做强大数据产业 每天,在家打开手机里的担当办公软件,进入考勤系统,上传自己的体温数据后,润泽科技办公室职员秦博颖一天的工作便开始了。 疫情期间,润泽科技开启了线上办公模式,无需去单位,打开担当办公软件,秦博颖就能看到自己当天的工作任务,然后根据任务的轻重缓急程度进行不同的处理。 担当办公软件是加优科技有限公司依托润泽云研发并在疫情期间加速推入市场的一款线上办公软件。通过考勤系统、任务系统、资产系统等不同模块,覆盖了企业通用的办公需求,为企业提供一站式全生命周期的信息化服务。目前,除了润泽科技外,河北、北京、湖北等多家企业都在使用该软件。 加优科技有限公司是润泽科技联合各行各业推动大数据产业发展的一个缩影。 在周超男看来,尽管大数据正处于风口,行业企业密集出现,但从整个行业来看还达不到“真正有质量的蒸蒸日上”。她理想中的“繁荣”是“搭建平台,借力机构,共同发展”,这也正是润泽科技的发展路径。 2015年,中国科学院电子学研究所旗下高新技术企业中科九度(北京)空间信息技术有限责任公司找到润泽科技,围绕京津冀大气污染实时监控验证系统寻求合作。 基于发展大数据产业的共识,双方的合作很快达成。 “润泽科技在数据存储、运算上有很大的优势。更可贵的是,他们对其他行业的专业性有很明确的认知,因而不会囿于数据,而是将海量的数据深度加工,进而提供一流的服务。”中科九度总裁魏育成表示。 搭建服务平台,专业的事交给专业的人去做,在深度挖掘数据价值上,润泽科技建立起自己的价值体系。 统计显示,润泽科技目前已与中科九度等13家单位联合成立了京津冀天空地海大数据产业联盟。此外,还与中科院、中国联通、国家超级计算天津中心、汇天科技等数十家企业合作,建立起跨地区、跨领域、跨行业的大数据综合应用服务平台。 与实体经济深度融合,赋能高质量发展 工业互联网时代,发力实体经济平台的同时加强数字经济设计,利用数字经济技术优化实体行业的设计、研发、生产、经营管理等,成为经济发展的必然趋势。 疫情中,在线办公需求陡增,手游、在线娱乐、线上生产和生活交易异常活跃,使人们深切感受到数智技术的魅力。从无人机扫码到使命必达的物流战场,从智能护理、送药机器人到远程医疗,这都是数字经济与实体经济融合的教科书级案例。 在周超男的创业版图上,有这样一个场景: 当货车司机握上智能方向盘后,他的基本生命体征、工作状态、驾驶习惯等数据将被实时采集,这些信息经过筛选分析后,传导到与车辆联网的信息平台上,每辆车通过5G技术与“工惠驿家”运控平台进行实时对接,让货车司机在驾驶途中可以轻松使用辅助驾驶、路况分析、货运信息提醒等专属服务。 这是润泽科技正在研发、建设中的“工惠驿家”物流大数据项目,让运输变得更加智能、安全、舒适。 周超男认为,在数字经济时代,企业家应不断提高数字技术研发能力和产业创新能力,推动数字经济与实体经济深度融合,让数字经济成为高质量发展的引擎。 随着“新基建”迎来“风口”,润泽科技数据中心将承载5G、人工智能、区块链等催生的愈来愈多新应用,创造全新的应用场景和商业模式,加速新旧传统产业融合,形成全新的数智产业体系。 依托数据中心,润泽科技加快与实体经济融合步伐。 “未来,货车司机可以借助‘工惠驿家’,享受加油等优惠服务;通过集约化数智分拨共享服务平台,高效便捷地进行货物装卸;司机不用苦熬着排队等候装货卸货,会有更多时间在家与家人团聚。”周超男列举了“工惠驿家”要实现的目标,她希望用10年时间,推动全国3000万货车司机都能享受到“工惠驿家”的普惠福利。(河北日报记者 方素菊) 原文章作者:环京津新闻网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
癌忆筏
发表于
3 天前
最后回复
癌忆筏
3 天前
1362
0
大数据“抄底”内蒙古一天抓获两名潜逃20年以上命案逃犯
图为警方将犯罪嫌疑人于某抓获。 警方供图 中新网巴彦淖尔4月21日电 (记者 张林虎)“云剑-2020”专项行动开展以来,内蒙古自治区巴彦淖尔市公安机关将大数据和传统侦查手段融合,以大数据“抄底”作为命案积案攻坚突破口。21日,记者获悉,该局一天内成功抓获两名潜逃20年以上命案逃犯。 4月15日,乌拉特前旗警方在走访入户时发现一男子无身份证明,行迹可疑,遂将信息提交请求进行分析研判比对。经大数据分析研判,发现该男子极有可能是辽宁省重大杀人案件在逃人员。 图为警方将犯罪嫌疑人张某抓获。 警方供图 4月18日,警方在鄂尔多斯将该男子抓获。据悉,该男子姓于,1994年在辽宁省盖州市杀死3人,已经潜逃26年。 4月16日,乌拉特前旗公安局获得线索,涉嫌故意杀人的网上在逃人员张某极有可能藏匿在当地。经大数据分析研判,警方确定了张某的藏匿地点。4月18日,抓捕组将犯罪嫌疑人张某抓获。 据张某供述,1999年11月1日,在乌兰察布市察右前旗,他因家庭矛盾纠纷对妻子产生怨恨,将妻子连砍数刀后逃离现场。妻子在送往医院后,因伤势过重抢救无效死亡。(完) 原文章作者:中国新闻网,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
檀悦征
发表于
3 天前
最后回复
檀悦征
3 天前
2150
0
精心整理 Python400集+大数据全套教学资料+源码新手免费领取
从今天来讲,大环境就非常重要了,近三年的政府报告: 改造传统制造业,壮大新兴产业,成为关键词促进新兴产业加快壮大数字经济发展已经不可逆转。 深化大数据、人工智能等研发应用、培育新一代信息技术、高端装备、生物医药、新能源汽车、新材料等新兴产业集群等等这些知识都会跟各行各业形成交叉融合,不存在我是文科就不用学习、你是理科就更适合。 以上是2018年 BigData & Al Landscape 全景图 在全球各个应用企业,应用行业,开源组织都可以一览无遗 , 2019年势头正在愈演愈烈 ! 日前,人力资源和社会保障部等三部门也正式发布了人工智能工程技术人员、物联网工程技术人员、大数据工程技术人员等13个新职业信息,这也是自2015年版国家职业分类大典颁布以来发布的首批新职业。这一调整不仅影响到一些行业和产业的发展,也给就业市场带来了变化。 大军已经进入,全民开始行动了。2019年各大高校都将会开设大数据、人工智能专业,真正的竞争压力马上就会来了,已经加入大数据行业的同学很幸运,一定要抓住一切可以抓住机会,全身心的投入,时间不会等我们已经到火烧眉毛的时候了,着实连睡觉都是浪费时间。 如何正确姿势深耕大数据,编程语言与大数据的关系? 从技术层面来说,编程语言(Java,python,Scala、R,Go语言 ...)对于大数据开发来讲只是一个工具而已。 其实只要有点基础的程序员转型大数据,都有天然的进阶优势。 1. 大数据离线计算架构 Hadoop , 基于Java开发的,只需要掌握JavaSE基础即可学习大数据;2. 大数据实时计算架构 Storm , 基于Java开发的,只需要掌握JavaSE基础即可学习大数据;3. 大数据内存计算架构 Spark , 基于Scala语言的,基于JDK开发的 本质上来来讲还是基于Java开发的;4. 大数据新一代实时计算引擎 Flink - > Blink5. 这些编程语言各自都具备显著的特点,其中Python和Java更具备广泛的应用领域。 哪怕你没有学过任何一种编程语言零基础,也是可以学会的。 不管是初学者还是资深程序员,应该专注于<语言特性>,而不是纠结哪类语言,只有这样才能达到融会贯通,拿起任何语言基本上都会用,并写出高质量的代码来。 大数据开发高薪必备全套教程【免费获取】 Oracle高级技术总监多年精心创作一套完整课程体系【大数据、人工智能等学习必看】,全面助力大数据开发零基础+入门+提升+项目=高薪! 「大数据零基础入门」 「大数据架构系统组件」 「大数据全套系统工具安装包」 ◆ JAVA开发工具 ◆ ◆ 大数据必备工具 ◆ 「大数据行业必备知资讯」 「大数据精品实战案例」 「大数据就业指导方案」 转发文章+私信小编(资料)免费获取全部教程及精品课程一次 无套路!无套路!纯干货分享! 原文章作者:老刘刘编程,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
破叩
发表于
3 天前
最后回复
破叩
3 天前
3558
0
以数据智能推进产业数字化,滴普科技DEEPEXI 3.0蝶变
【猎云网北京】6月4日报道(文/李彤炜) 创业就像一场闯关游戏,找钱、找人、找方向,关卡重重,突破了一道道关卡,前面就是海阔天空。自2018年创办滴普科技以来,赵杰辉始终坚持与视野开阔的投资机构为伴,并在组织内部坚持打造做事“躬身入局”的团队,他坚信“只有跑赢大盘的人才能真正留下来“。如今,赵杰辉带领的滴普科技正朝全场景数据智能的方向迈进。 在疫情的冲击之下,企业的两极分化愈加明显,有的企业经营困难裁员降薪,有的企业业绩攀升逆势飞扬,疫情成为检验企业实力的试金石。 5月28日,滴普科技在深圳举办了DEEPEXI3.0新品暨A+轮融资发布会,带来了全新升级的DEEPEXI3.0新品,同时官宣完成5000万美元的A+轮融资。这是滴普科技继去年9月公布A轮后的又一次大额融资,近半年来总融资金额达8500万美元,成为数字化赛道融资金额最高的企业,显示了其硬核的底色。此次融资除了老股东继续增资加持外,还新增“国家队产业资本”招商局创投和三峡鑫泰。至此,滴普科技在短短两年内成功完成四轮融资,本次战略升级为全场景数据智能服务商。 在与滴普科技董事长兼CEO赵杰辉(花名厚坤)近达一个半小时的沟通中,视野、意志、品格三个词无论在组织内部的管理中,还是对外的合作中都曾被他多次提及。 在赵杰辉的带领下,滴普科技两年来的战略、产品方向、商业模式、人才引进等不断升级与演进。透过本次发布会和专访,我们洞悉滴普科技的战略升级、技术进化,以及市场布局。 战略升级:聚焦全场景数据智能,数字化成为一种信仰 三峡鑫泰基金总经理许汉明在发布会上表示“数据智能是一个有起点而没有终点的事业,从这个角度说,滴普科技可谓是生逢其时,在正确的时间选择了一个正确的事业,这也充分反映出滴普科技出色的、优秀的思考力。” 对数字化进程的本质需求的洞察体现了滴普科技的思考力。赵杰辉给出两个观点:敏捷创新和数据智能。 赵杰辉进一步解释,敏捷创新,即数字化系统是否能快速地应对市场响应,非常敏捷地支撑客户业务创新。第二,数据智能,要做全域的、基于数据的场景智能, 通过数据智能去优化很多业务场景,如库存、供应链、客户触达场景等。 猎云网:以企业数字化转型为例,怎么去理解全场景数据智能? 赵杰辉:企业数字化一定离不开数据的集中、数据的实时在线和数据分析,可以综合地应用现有的四大核心技术(5G、IoT、AI和数据智能)去协助企业完成基于数据的智能化升级。 5G、IoT、AI和数据智能等技术就是数字化技术栈的核心。以5G和IoT为核心的连接类技术,让所有非实时的、非结构化数据可以实时在线,实时被传输收集,打破了所有非结构化数据以及更大批量数据实时在线的瓶颈。感知类AI技术让大量的非结构化数据可以被实时结构化,让更多的数据实时参与计算,让数据智能的处理成本大幅度降低。 数据智能技术则拥有了实时的计算能力,在原来的大数据分析基础上形成了新的数据智能技术,而云原生的架构让所有的创新应用场景落地变得更加敏捷。 经此一疫,数字化基本上成为一种信仰。企业数字化已经从数据应用阶段,发展到数据智能阶段,实时数据的智能技术完全可以完成整个全场景的智能。 从企业数字化升级为产业数字化,赵杰辉对数字化发展方向的洞察令滴普科技始终处于行业的风口之上。对此,滴普科技的股东方高瓴资本合伙人黄立明深有体会,他表示:“赵杰辉是一位很有格局观和战略思考的创业者,很早就敏锐地捕捉到了数字化发展到产业变革的重要意义。这些年来,他带领一支非常强的技术背景团队,通过关注核心产品的打磨,沉淀出了一套公司独立研发并拥有的核心技术,能够在产业互联网的背景下,为传统企业的数字化转型提供更敏捷、更智能和更全面的数字化全栈解决方案。” 技术进化:DEEPEXI 3.0重装上线 围绕着数字化进程的本质需求以及此次战略升级,滴普科技推出了DEEPEXI 3.0,意在升级全场景数据的能力,并着重强调了数据底层对数据存储、计算以及云边端实时数据智能、协同等方面的重要性。 DEEPEXI 3.0由4个系列组成,包括技术生态A系列、商业智能D系列、智联网AIoT X系列,以及deepexi.com平台。其中,A系列产品升级后形成更加完善的面向敏捷开发的全栈技术工具框架;D系列产品升级后更深度覆盖商业智能场景;X系列产品围绕数据智能场景形成深度的数据智能产品族;而deepexi.com平台体系围绕线上客户运营和交付。 DEEPEXI X聚焦数据智能场景,打造产业数字化数据智能的新引擎。DEEPEXI X系列包括三大核心产品矩阵:DEEPEXI XData定位为综合大数据平台,包含:数据中台开发套件、数据采集传输服务、 实时流式计算、分布式实时数仓OLAP产品、实时管控体系等,建立高效的数据存储、分析、开发解析、应用构建体系,实现跨数据领域的流通、分析和应用。平台不仅具备丰富的结构化、非结构化数据处理能力,而且还具有大规模的高压缩比存储和扩展能力,是面向企业大规模实时数据处理和数字基建时综合数据分析处理的数据智能平台。 DEEPEXI XMesh定位为基于IoT组网和分析平台,提供SDK、网关连接平台,开发工具等基础设施,提供孤岛连接,边云对接,快速接入能力,将IoT数据搜集融合到大数据平台中。同时,整合了滴普科技在云计算、大数据、AI等方面的能力和资源,构建IoT服务强大的计算能力,对海量的物联数据进行分析,支持边缘计算,可自由选择这种服务能力放在云端或边缘节点上。 DEEPEXI XMind提供低成本一站式算法平台,包含数据集成管理、算法开发、模型训练、模型部署四大板块,提供丰富的算法分析服务,推进加速AI在产业场景快速落地,并可通过本地化和云端多种部署方式,方便高效。 DEEPEXI D系列打造丰富的商业智能微场景库。D系列产品基于自主研发的云原生全栈技术和工具体系构建,是对所谓行业内业务中台的系统化升级,也是目前市场上领先的基于云原生的全技术栈实现的商业智能数字化产品体系。D系列产品包括DM(Digital Marketing)数字化营销、DR(Digital Retail)数字化零售、DD(Digital Distribution)数字化渠道等三个产品的升级。 滴普科技D系列场景目前针对企业对用户的全渠道触达和运营形成了完整闭环链路的数字化,同时D系列每一款产品都是多个微场景的灵活组装,这得益于滴普科技长期以来对云原生的基础技术体系A系列产品的投入。基于A系列产品、D系列的商业智能微场景可以根据客户需求灵活定制组装。 deepexi.com则致力于建设微场景化解决方案应用市场,企业可以结合自身遇到的问题基于丰富的微场景按需组装和定制,以乐高式快速搭建专属的数字化应用。全面升级的deepexi.com将凭借其敏捷、可编程、可拓展、场景按需定制、快速部署、快速迭代等优势,加速产业数字化升级。 未来野望:以数字化推进产业升级 猎云网:DEEPEXI3.0蝶变升级后将重点关注哪些产业? 赵杰辉:滴普科技正以全场景数据智能服务商的全新定位,以DEEPEXI3.0为抓手,重点关注商业智能、工业智能、智慧园区、数字政府等领域,构建全场景的数据智能服务能力,加大产业数字化服务范围,以数据智能赋能组织业务创新与增长。 猎云网:为什么在短短2年中获得多家顶级投资机构的青睐? 赵杰辉:第一是创始团队的成熟。我们团队大部分人在华为、IBM等工作十年以上,操作过大的项目,做to B的背景比较深,又在知名互联网公司干过2-4年。融合了to B 和优秀互联网公司的基因,团队对企业服务市场和互联网技术都有深刻的体会与理解,我们明白真正成为巨头的底层逻辑是什么。这两个基因的融合,让公司的管理层视野更为开阔。 第二,中国企业服务市场从2014年开始孕育,到了现在,是寒武纪大爆发的前夜。中国企业服务市场还没有任何一个巨头诞生,在这里,一切才刚刚开始。我希望好好耕耘这个市场,把滴普科技做成一个真正有影响力的企业。投资者与我们都坚定地看好这个方向,也认可我们公司的战略规划、业务布局与进展。 猎云网:滴普科技在这个赛道上有什么独特性? 赵杰辉:滴普科技一直是一家谋求中立发展的公司,具备独立的市场拓展能力、独立的产品技术体系与获客体系的公司。因为我们有非常完整的技术与服务,给客户以产品为核心做二次开发,而不是从头做任何一个基础建设。 我们比较重视企业自身的使命、愿景、价值,真正希望能够靠客户价值做出一些事情,拒绝机会主义。追些风口、热点上去本身就是机会主义的表现。滴普科技能够和客户建立合作关系,一定是靠自己,彼此之间形成的有价值交换的合作关系。 结语 高瓴资本创始人兼首席执行官张磊在给当前创业者寄语中曾提到:“创业不是百米冲刺,做的是时间的朋友。稳住当下经营,赢在赛场上,首先要stay in the game(留在比赛中),才有机会有更广阔的天地。”(高瓴资本旗下专注早期风险投资的高瓴创投系滴普科技连续三轮融资的领投方,滴普科技是其重仓押注的创新企业之一。) 纵观滴普科技两年来的发展历程,与张磊所提倡的创业理念相吻合。在新基建浪潮席卷而来的当下,产业数字化的号角已吹响,刚刚走过不惑之年的赵杰辉带领600多人的团队躬身入局这场数字化大潮。 处于浪潮之中的企业,是挺立于浪潮之巅,抑或折戟于滔天巨浪,取决于掌舵人的视野、意志和品质。这让人不禁想起前几天因SpaceX成功飞天而大出风头的马斯克说过的那句话“用物理学思维改变世界”,可以透过层层迷雾,快速达到事物的本质。 回到滴普科技,赵杰辉在数字化迷雾中看清“敏捷创新、数据智能”的核心本质,以全场景数据智能服务商的战略定位,深耕产业数字化,未来将给产业数字化带来怎样的改变?滴普科技的未来值得期待。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
汲叶帆
发表于
3 天前
最后回复
汲叶帆
3 天前
4377
0
如何有效通过个人知识大数据管理运维循环改变人生道路?
个人的大数据管理过程中困难重重,但就像大数据管理一样,不能因噎废食。我保证,只要你开始用这个方法去做,在3个月后,最晚也就是6个月之后,你会变成另外一个人。《思考》(Thinking)中有一个例子和我的思考以及我在6年间所做的事情极为相似。书中说,如果你把某个人的左眼蒙上3天,3天之后,从医学的角度来说,他左眼相关的大脑部分,会发生退化。这个意思就是说:眼睛与大脑是互相影响的,你看到的将影响你的思考,反过来你的思考方式又影响着你看到的东西。 所以说,如果你6个月内不断积累知识,你会发现你的思考结构发生了改变:不仅仅是知识量上的改变,更是思维方式的颠覆式改变。这是因为你收集数据的方法已经不一样了,你积累的东西也不一样了,你变成了另外一个人,你会觉得你“混”得特别好。也许你已经跃跃欲试了,但是我从这几年的经历中提炼出了一些建议,希望能值得你关注。首先,你所选定的题目一定是你感兴趣的,或者跟你的职业相关的。比如你喜欢宠物,你要成为养猫的专家,你就会每天收集养猫的数据,当别人问到怎么养猫时,你就能很快地知道某个专家说过相关的内容。 其次,个人大数据管理和做大数据一样,一定要从小处着眼,比如说你的目标是要成为电子商务专家,这个目标在一开始就显得过大了。从我来说,一开始,我只收集海外出口的相关资料和数据,在这个小领域里形成了一个小的大数据循环,然后走熟这个循环,再涉猎手机支付行业方面,然后是C2C和B2C行业等。在经历过小的循环之后,我才允许自己去观察别的领域。 再者,就是尽量让数据的收集变得简单。当你发现有用的知识后,一定要跟自己说,不要多做思考先收集,现在就收集,不是明天,更不是后天。有人在讲PPT,有价值的内容立即拍下来,而不是待会跟他索要PPT。知识的收集永远都是“现在时”,而且这个操作越方便越好,越快越好。我的收集就很简单,设置一个热键一下就能够将数据抓取过来。 最后,一定要把这个“运营数据-数据化运营-运营数据”的循环打通成闭环,也要利用今天社会化的优势,学会借助别人的力量。我认为这才是真真正正的大数据管理——形成一个有效的循环,形成一个可以不断获取数据和反馈的动态循环,让知识形成积累,成为你在人生道路上,从“命”到“运”最重要的分水岭。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
姘违
发表于
3 天前
最后回复
姘违
3 天前
3508
0
自学大数据需要学哪些内容?
大数据无处不在,比如疫情地图实时数据报告,我们可以看到全国疫情动态、新增确诊或疑似趋势等疫情信息;输入身份证号,即可查询近14日内是否到达过疫情严重地区,是否与确诊患者同乘坐一辆交通工具;利用采集挖掘到的近期车辆轨迹数据,可在应用软件上为运送防疫物资的司机提供优选路线推荐...... 很多人对大数据也产生了浓厚的兴趣,也想转行大数据方向,但是不知道该学哪些内容,下面小优给大家整理了大数据的一些学习知识点,希望能给大家带来一些参考: 第一阶段Java基础的学习:主要知识点有:Java基础语法、面向对象编程、常用类和工具类 集合框架体系、异常处理机制、文件和IO流、移动开户管理系统、多线程、枚举和垃圾回收 、反射、JDK新特性、通讯录系统等 第二阶段JavaEE核心的学习:主要学习知识点:前端技术、数据库、JDBC技术、服务器端技术、Maven Spring、SpringBoot Git等。学习了这些你可以制作精美的网页和动态JavaScript效果完成项目前端页面的制作。 第三阶段Hadoop生态体系的学习:主要学习知识点:Linux、Hadoop、ZooKeeper、Hive、 HBase、Phoenix、Impala、Kylin、Flume、Sqoop&DataX、Kafka、 Oozie&Azkaban、Hue等。学习了这些你可以制作智慧农业数仓分析平台 第四阶段Spark生态体系的学习:主要学习知识点:Scala、Spark、交通领域汽车流量监控项目、Flink等 第五阶段项目实战+机器学习的学习:主要学习内容:高铁智能检测系统、电信充值、中国天气网、机器学习等 学习了这些内容,你可以从事哪些工作? 初中级Java工程师、大数据工程师、大数据开发工程师、大数据Spark开发工程师等 也许有人告诉你,大数据很难,不建议0基础的伙伴学习,事实究竟是怎么样的呢? 大数据是基于Java语言之上的一门技术,零基础的伙伴学起来确实会有一些难度。如果你非科班出身,建议你先从Java开始入门,精通Java语言后再去从事大数据方向,会容易很多。如果你是计算机相关专业,有一定Java基础,直接学大数据也是可以的。 如果您还不知道自己的基础怎么样,快来点击“了解更多”,大量免费直播课等你来学! 如果您还是零基础,快来私信我“java”,领取java入门基础课程。 原文章作者:IT小敏同学,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
盖孟乐
发表于
3 天前
最后回复
嬴德具
3 天前
920
1
数据成为科学决策之基——记北航新冠疫情大数据分析团队
科技日报记者 操秀英 五月底,位于北京航空航天大学新主楼G座的北京航空航天大学大数据科学与脑机智能高精尖创新中心(以下简称“高精尖中心”)依然很安静,学生们尚未返校。而过去几个月里,这里的多台服务器却始终高速运转,从这里出去的多份数据和报告,成为我国新冠肺炎疫情防控的重要决策支撑。 和服务器同样忙碌的,还有以高精尖中心人员为主体的北航新冠疫情大数据分析团队。 在国务院联防联控机制科研攻关组信息化专班的协调和组织下,李建欣、王静远、李大庆教授等牵头组建的应急研究团队,开展了基于大数据的疫情预测分析与决策支持研究,其成果被应用于中央多部门的疫情防控中。 李建新、王静远、邰振赢在探讨 王静远团队工作现场 “总书记在给科技工作者的回信中专门提到了疫情防控中大数据应用方面的攻关,这是对我们极大的认可。研究成果能真正服务国家和人民,这是科研人员最大的成就,比起这些,辛苦也就不值一提。”王静远告诉科技日报记者。 “坐不住了”开启攻关历程 没有谁的一声令下,北航大数据分析团队的行动源于单纯的“坐不住了”。 疫情爆发之初,国内尚没有可进行动态疫情预测的模型,而国际上的各种模型给出了吓人的数字。“有个模型预测中国会有超过40万人感染,造成不小的恐慌。”王静远回忆,“我们当时感觉这个数字应该是没有考虑到中国强有力的防控措施,作为大数据研究人员,我们必须做点什么。” 时值寒假,学生们都回家了,王静远立即电话联系各地学生,大家开始在线开展工作。 大数据是一个综合学科。“尤其是疾病预测模型,涉及社会学、传染病管理等各方面。”王静远说,他马上给北航经济管理学院数据智能研究中心主任吴俊杰等合作者联系,“大家都没二话,一个跨学科临时小组迅速成型。” “当时就是想做些事情,但确实也不知道我们的工作具体能起到什么作用。”王静远坦陈。 经过几昼夜的奋战,王静远团队利用城市人口流动大数据和疫情数据相融合的方法,于1月25日构建了第一个预测模型。这也是目前已知国内首个疫情预测的大数据模型。 “坐不住”的不止王静远。高精尖中心胡春明、李建欣、李大庆和邰振赢等也迅速集结了近30名师生团队,基于高精尖社会脑平台RING,快速研发出新冠疫情态势研判系统。 该系统通过多源数据融合和学习,汇聚了国内外疫情数据、防控政策、舆情信息,以及交通货运、人口迁徙等大量动态数据,建立了一套数据分析与预测模型库,生成我国各省市、全球各国疫情发展状况的多维研判结果。 “根据这个系统,建欣团队1月27日出来第一份内部报告,我问他,国内疫情大概什么时候会是个节点,他说大概是4月份。”高精尖中心执行主任刘旭东回忆,谨慎起见,大家决定将这份报告挂到高精尖中心的官网。 与此同时,王静远则将自己团队的研究报告通过“人工智能技术与管理应用研究会”的公众号进行了对外发布,当日就获得了接近四万的浏览量。 “稍有不慎,就有可能影响疫情防控的效果” 没想到,两份报告都被决策部门看到了。 国务院联防联控机制疫情防控工作组大数据专班的专家吴曼青院士通过朋友圈注意到了王静远的研究工作,国务院办公厅电子政务办相关负责人则看到了李建欣团队的研究结果。 2月1日,王静远的团队接到来自中央部门的紧急任务,要求他们提供若干关键时点的疫情预测数据和疫情拐点的分析供中央决策参考。国务院办公厅也同时委托李建欣的团队就武汉的区域物资与交通保障、疫情中长期趋势预测等问题,开展大数据专题分析,形成研究专报。自此,北航大数据分析团队进入以各级政府部门任务为导向的攻关阶段,原先分散的几个团队开始协同工作,共同为政府部门的疫情防控提供大数据决策支撑。 “虽然我们对自己的数据分析有信心,但当时确实压力巨大,因为分析结果的背后是中央部门的疫情防控决策,稍有不慎,就有可能影响疫情防控的效果。”李建欣说。 为了确保分析和预测数据的绝对精准可靠,他们带领团队进行反复推演,通过多种技术路线的交叉验证,集成多种模型进行融合预测,最终得到了最为可信的预测分析结果。事后证明,北航大数据团队的模型预测精度很高,对于拐点前各种关键疫情预测任务误差小于7%、拐点预测日期误差在2天之内。 在科研能力得到认可后,系列重任接踵而至。从 2 月的国内疫情预测、物资保障分析,到3月的复工复产分析、防控政策评估,再到4月的全球疫情追踪预测、境外输入风险分析, 在疫情爆发后的 100 多天里,团队挂图作战,为国务院办公厅、国务院联防联控机制、国家卫健委、科技部、外交部、北京市防控办等决策部门提供各类疫情预测与分析服务。 团队开发的全国首个面向湖北省的疫情地图服务系统和疫情态势研判系统,被纳入国家“互联网+监管”系统,提供疫情监测与数据信息服务。国务院办公厅、外交部、科技部等国家部门纷纷致函,感谢信评价团队勇于担当,攻坚克难,为疫情防控和复工复产大数据分析提供了有力支撑,取得了显著成效。 “我们这个团队强大的科研实力与高精尖中心多学科交叉的背景,及前期大量研究积累密不可分。”刘旭东说,高精尖中心的研究人员来自北航计算机、可靠性、经济管理等各学院,“大家原本就是一个整体,合作起来很顺畅,底层技术是相通的,在此基础上,根据不同部门的需求协同攻关。”刘旭东说。 让人刮目相看的“90后” 在这支战斗力极强的队伍中,“‘90后’让人刮目相看。”刘旭东不止一次感慨。 研二学生付莹莹在听说要组建应急研究团队后,放弃过年回家和家人团聚的机会,留校承担起了实验室计算设备的管理任务。 “疫情最紧张的时候,我都进不了实验室,只能电话指挥她来操作。”王静远说。 三个月没有离开校园一步,付莹莹笑称,她在这个寒假养成了每天看《新闻联播》的习惯。“因为一开始收集数据和各种信息的渠道有限,看新闻是一种重要途径。”她说,另一个原因是,电视机的声音能消解一个人呆在宿舍的孤独感。 白天收集数据、训练模型、分析预测,晚上整理历史误差、撰写发布报告,召开线上会议。付莹莹说,这段特殊的日子是她的财富。“疫情防控中,大批‘90后’医护人员展现了年轻人的责任和担当,能用自己的知识贡献一份力量,成为他们中的一员,我感到特别自豪。” 让王静远感动的还有直博生王培宇。“前段时间聊天时,他才无意中说出,他父亲是湖南援鄂医疗队的成员,母亲是当地医生。”一家三口在不同的战线上同疾病斗争的故事让人动容。 还有远在美国重疫区的罗格斯大学访学的周号益,担任数据分析组学生组长。自接到数据分析任务起他从不懈怠,周号益立即暂停其他工作,克服时差,每天与刘诗炎、张帅、傅星珵等国内组员们远程连线,讨论分析总体思路和数据模型,保障了各专报的顺利交付。“每当遇到分析难题,他都能快速给出巧妙解决思路,一次连续多日的紧急专报任务,自己宿舍中已经断粮了也不知道。”李建欣说。 连续日夜奋战的长期高强度伏案工作让那个一年级博士新生刘诗炎颈椎病复发,但她依然克服重重困难,坚持工作,为精准的传染病模型的建立做出了很大的贡献。 原文章作者:一点资讯,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
得曜
发表于
3 天前
最后回复
得曜
3 天前
3321
0
大数据开发|Hadoop分布式集群环境构建
一直想编写一系列有关大数据开发、数据挖掘、云计算等相关课程的学习资料,为零基础又想从事大数据行业的小伙伴提供一些参考。今天第一篇《Hadoop分布式集群环境构建(1)》终于和大家见面了。 一 集群主机规划 二 软件安装包准备 会将软件所有安装包放入百度云盘,以供大家方便下载。链接:http://pan.baidu.com/s/1i5CdjI9 密码:f7rn 三 安装环境准备 3.1 创建用户 为每台机子创建一个不是root的用户,该集群是以hadoop来创建的。并且每台机子的用户以及密码都要相同。 操作命令: 每台服务器用root账户下: useradd hadoop echo "hadoop" | passwd --stdin Hadoop 3.2 配置hosts文件以及network 集群中的所有机器的 /etc/hosts 文件内容均一致,都要将集群中的各 IP 和 主机名对应起来,而且都能互相ping通。如下: 修改集群所有机子的/etc/sysconfig/network文件,HOSTNAME要改成对应的主机名。如下: 四 安装jdk 首先解压该安装包: tar -xvzf jdk-7u67-linux-x64.tar.gz -C / 对解压的安装包重新命名 mv jdk1.7.0_67 jdk 将jdk文件复制到/home/hadoop/目录下并赋予相应权限 cp /jdk /home/hadoop/ chown -R hadoop:hadoop /home/hadoop/jdk 配置jdk的环境变量: vi /etc/profile 使以上配置环境变量生效: Source /etc/profile 以上步骤其余机子都需要操作一遍 五 ssh免密码通信 通过云盘中提供的一个脚本文件来实现,名称是zeno_ssh_update.sh。 首先需要创建一个目录:/home/zeno_programpag 然后将下载的脚本文件放入到这个目录下。 加入如下内容: 执行脚本文件(root用户下执行) ./zeno_ssh_update.sh hadoop hadoop 脚本后面跟的是用户名及用户密码 检查SSH免密码登录是否完成。 六 安装zookeeper 6.1 解压zookeeper 将该安装包解压到/home/hadoop/下 tar -zxvf zookeeper-3.4.5-cdh5.4.0.tar.gz –C /home/hadoop/ 6.2 修改配置文件 在/home/hadoop/zookeeper/conf目录下,复制一各名为zoo.cfg的文件 cp zoo_sample.cfg zoo.cfg 修改zoo.cfg中的文件内容 加入如下标注的内容 创建/tmp/zookeeper/目录,并赋予hadoop的所有组及所有者权限 mkdir -p /tmp/zookeeper/ 并创建myid文件,加入zoo.cfg中对应的数 将/home/Hadoop/zookeeper 复制到其他机子。 scp -r /home/Hadoop/zookeeper/ hadoop@hadoop3:/home/hadoop/ scp -r /home/Hadoop/zookeeper/ hadoop@hadoop5:/home/hadoop/ 注意每台机子都需要创建myid这个文件,并修改对应的数字。 6.3 启动zookeeper服务(三台机子) /home/hadoop/zookeeper/sbin/ zkServer.sh start 6.4 查看zookeeper服务状态 出现以下的状态就说明zookeeper成功了 七 安装hadoop集群 7.1 解压hadoop安装包 tar -zxvf hadoop-2.6.0-cdh5.4.0.tar.gz –C /home/hadoop/ chown -R hadoop:hadoop /home/hadoop/hadoop 7.2 修改配置文件 01 hadoop-env.sh文件 向其中添加如下两行: export JAVA_HOME=/home/hadoop/jdk export HADOOP_HOME=/home/hadoop/Hadoop 02 配置core-site.xml #vi core-site.xml
fs.defaultFS
hdfs://mycluster
hadoop.tmp.dir
/home/hadoop/hadoop/data/hadoop/tmp
dfs.journalnode.edits.dir
/path/to/journal/node/local/data
ha.zookeeper.quorum
hadoop5:2181,hadoop4:2181,hadoop3:2181
需要手动创建:/home/hadoop/hadoop/data/hadoop/tmp目录 mkdir –p /home/hadoop/hadoop/data/hadoop/tmp 03 配置hdfs-site.xml #vi hdfs-site.xml
dfs.journalnode.edits.dir
/home/hadoop/hadoop/ha/journal
dfs.permissions
false
dfs.permissions.enabled
false
dfs.replication
3
dfs.webhdfs.enabled
true
dfs.namenode.name.dir
/home/hadoop/hadoop/dfs/name
dfs.datanode.data.dir
/home/hadoop/hadoop/dfs/data
dfs.nameservices
mycluster
dfs.ha.namenodes.mycluster
nn1,nn2
dfs.namenode.rpc-address.mycluster.nn1
hadoop3:8020
dfs.namenode.rpc-address.mycluster.nn2
hadoop4:8020
dfs.namenode.http-address.mycluster.nn1
hadoop3:50070
dfs.namenode.http-address.mycluster.nn2
hadoop4:50070
dfs.namenode.shared.edits.dir
qjournal://hadoop5:8485;hadoop4:8485;hadoop3:8485/mycluster
dfs.ha.automatic-failover.enabled
true
dfs.client.failover.proxy.provider.mycluster
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
dfs.ha.fencing.methods
sshfence
dfs.ha.fencing.ssh.private-key-files
/home/hadoop/.ssh/id_rsa
dfs.ha.fencing.ssh.connect-timeout
30000
04 配置mapred-env.sh 加入 export JAVA_HOME=/home/hadoop/jdk 05 配置mapred-site.xml
mapreduce.framework.name
yarn
06 配置yarn-env.sh export JAVA_HOME=/home/hadoop/jdk 07 配置yarn-site.xml # vi yarn-site.xml
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
cluster1
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
hadoop3
yarn.resourcemanager.hostname.rm2
hadoop4
yarn.resourcemanager.zk-address
hadoop5:2181,hadoop4:2181,hadoop3:2181
yarn.nodemanager.aux-services
mapreduce_shuffle
08 配置slaves 以上hadoop的配置就算完成了。 将/home/Hadoop/Hadoop/ 拷贝到其他机子上 scp –r /home/Hadoop/Hadoop/ hadoop@hadoop3:/home/Hadoop/ scp –r /home/Hadoop/Hadoop/ hadoop@hadoop5:/home/Hadoop/ 八 启动集群 8.1 格式换命名空间(hadoop4) /home/hadoop/hadoop/bin/hdfs zkfc -formatZK 8.2 启动journalnode(三台) /home/hadoop/hadoop /sbin/hadoop-daemon.sh start journalnode 通过jps查看一下出现journalnode说明成功 8.3 格式化master节点并启动hadoop服务 /home/hadoop/hadoop/bin/hadoop namenode -format mycluster 启动hadoop服务 /home/hadoop/hadoop /sbin/hadoop-daemon.sh start namenode 将hadoop4这台机子格式化的文件拷贝到hadoop3上 格式化后的文件是放在/home/hadoop/hadoop/dfs/name这个目录下的。 scp /home/hadoop/hadoop/dfs/name hadoop@hadoop3:/home/hadoop/hadoop/dfs/name/ 在hadoop3上启动hadoop服务 /home/hadoop/hadoop /sbin/hadoop-daemon.sh start namenode 8.4 hadoop4和hadoop3节点上启动zkfs /home/hadoop/hadoop /sbin/hadoop-daemon.sh start zkfc 8.5 启动DataNode(三台) /home/hadoop/hadoop /sbin/hadoop-daemon.sh start datanode 8.6 启动yarn(一台master) /home/hadoop/hadoop /sbin/start-yarn.sh Ok,所有的进程都已启动完成了。 网页通过端口访问hadoop:http://192.168.211.88:50070/ 以下的效果说明已经完全构建了一个HA高可用的hadoop大数据集群环境。 集群环境mapreduce测试: 执行hadoop自带的mapreduce是否能够成功? /home/hadoop/hadoop/bin/hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.0.jar wordcount /wangyd/ /output/wordcount1 发现mapreduce执行也是没有问题了,说明整个集群搭建ok了。 码字不易,如果您觉得文章写得不错: 请您 1.关注作者~ 您的关注是我写作的最大动力 2.私信我“大数据” 我将与您分享一套最新的大数据学习教程和全套开发工具 原文章作者:阿福班主任,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
叽善廷
发表于
3 天前
最后回复
牵嫣
3 天前
3536
1
大数据下智慧政务的变化有哪些?
随着互联网大数据的流行,社会中只要是与互联网相关的产品基本都离不开大数据。而正是因为有了大数据,我国智慧政务的发展更是跨出了一大步,而且通过大数据下的智慧政务也做出了很多变化,具体有哪些变化接下我们来就简单的描述一下。 首先现在的智慧政务与传统政务的区别是能借助大数据分析技术实现智慧感知,全面、精准、及时了解公众的多样化需求,并作出针对性响应,实现良性互动,以有效决策。 在智慧感知公众需求的基础上,采用大数据分析评价技术对政策的执行对象、执行过程、执行效果和既定目标、社会预期、意见反馈、态度情绪等相关数据进行实时全面的动态分析,实现智慧评价,并提出调整建议。在智慧评价的基础上,运用大数据分析技术,确定政策改进和调整方向,并实现智慧决策。 第二大数据作为变革的手段,引领政务服务转型升级。促成政务服务理念转变和工作流程再造,重塑政务服务工作机理与生态,对相关数据进行有效整合关联,深挖和探究更利企便民的服务方式,由粗放式服务转向精准化定制服务,变被动服务为主动服务。 第三随着大数据技术的广泛运用,政务服务模式日趋集成化,借助政务大数据平台把政务相关信息数据化和集成化,不断完善和优化政务服务信息系统,统筹建立相关信息库。 通过整合建设数据共享交换平台,实现政务信息资源的跨部门、跨层级、跨区域互联互通、线上线下融合和协同共享,破除“信息孤岛”和“数据壁垒”,在服务层面实行“一站式”无缝整合,推进政务实体大厅、网上大厅、移动应用等多渠道相结合,由“信息多跑,百姓少跑”来实现“信息惠民”,解决公众和企业办事难、办事慢的问题,营造宜居安商的政务服务环境。 综上所诉的几点就是大数据下智慧政务做出的一些变化,而从中我们可以看出智慧政务在大数据下更加的智能化联动化。 原文章作者:海盟高科,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
乙骑看
发表于
4 天前
最后回复
乙骑看
4 天前
2649
0
大数据除了预测还能干啥?
今天随便聊聊一个Susan在2017年发在Science上文章:Beyond prediction: Using big data for policy problems。Susan Athey是美国著名的经济学家,现在是斯坦福大学商学院的教授。在平台和大数据方面的研究方面,她大概是经济学界林朝英这样的角色。值得一提的是她老公Guido Imbens在计量领域的名声更加盖过了Susan在商学领域的名声,大概算是王重阳。 之所以提到这篇论文是因为里面提到了一些非常有趣的关于大数据未来在产业经济领域发展方向的问题。众所周知大数据和机器学习技术的出现大幅提高了我们运用数据来预测的能力,比如说一个和我们生活最息息相关的方面就是许多平台软件会通过大数据学习来定向推送内容(每个人打开百度搜索相同的关键词,得到的结果和排序可能都是完全不同的)。 那么对于社会科学工作者而言,一个自然而然的问题就是:我们未来的发展方向有哪些是可以和大数据方法相契合的?换而言之,社会科学工作者,或者企业领导者是不是可以直接拿来主义,运用大数据来指定相关政策,优化社会福利或者公司运营呢? 苏三(Susan)在她的文章里面提到了现实生活中大数据应用的三个方面: 医疗 医疗方面一个使用大数据预测的例子是:医生希望通过大数据来预测符合哪些条件的病人更适合来做髋关节置换手术。所以他们使用机器学习来预测哪些手术候选人可能在手术后的一年之内死亡,通过手术的风险率来确定病人是否适合做这样的置换手术。他们的说法非常具有经济学意义:一个人只有通过手术能够活得很长的时候,做手术才更有意义;如果手术之后不久就死了,还要为手术承受额外的痛苦,那可能只是一种金钱上的浪费和徒劳。 其实这是一个非常具有现实意义的问题,比如说面对流行病我们是不是也可以使用大数据来对不同程度的感染者采取不同的治疗手段,从而使得有限资源可以最合理化的分配。 然而一个重要的问题在于,我们是不是可以简单地通过这样的风险分类的方式来决定手术的优先性?同时简单基于关联性的机器学习结果也并无法回答更深层的问题,比如说患者之间可能存在我们看不到的异质性问题。就目前而言我们可能并无法通过模型的预测结果来直接判断是否某些病人可能比另一些病人更有可能引发并发症。 回到这次的肺炎事件来看,我们如果仅仅从个体治疗效果角度进行判断通过大数据建立模型来决定有效的治疗手段和方案,会不会忽略了个体的传播性?比如说有一些病患可能从个体角度上来说治疗的优先级并不是最高,因为他们身强体壮。但是可能这些病患恰好是极具传播力的人,反而应该被优先处理。更本质地,到底这种根据存活率来分配稀缺资源的方式是不是就是我们人类社会所追求的最优方式? 城市发展 公共建设和城市发展是大数据方法运用的另一个重要维度。比如说一个很现实的问题是如果我们要在城市里面安排警察,监察员,那么根据现有的人力物力,我们怎么样分配调度才是最优的。这是一个很现实的问题最新的研究成果就有显示,如果在波士顿地区的参观重新按照大数据结果安排卫生监察员的话,可能会相比现有的分配方式提高30~50%的监察效率。 苏三提出这看起来很美,但是相对而言我们也要知道机器学习的方法在预测效率可能会提高30~50%的同时,也忽略了两个重要的因素。要使得效率提高成立的前提条件是: 人类的行为不会因为资源的重新分配而变动;;即便这样是真的,重新置换分配资源的成本也必须低于收益,不然的话政府将会缺少动力去优化现有系统。 大数据经常也会被用于计算城市的犯罪率,从而合理规划警员的配置和分布。可是另一方面我们需要担心的是一旦这种警员重新配置分布之后,很显然也会反过来影响到潜在犯案者的行为以及犯案地点的选择,最后可能会使得重新分配警力只是在做无用功。当然这一切因为从来没有发生过,自然而然也不可能直接被“大数据”所预测。 企业决策 最后要说的例子是企业的决策,特别是平台类的企业。2015年的时候Blake, Tadelis, Nosko有一篇著名的论文,发在了经济学的顶级刊物Econometrica上。经济学家帮助Ebay做了一个研究,主要是看Ebay通过付费搜索广告来吸引消费者这样的策略到底是否实际有效。之所以做这样的研究是因为在经济学家介入之前,Ebay自己的团队已经做过这样的研究,搜索点击和购买行为本身相互关联。Ebay通过机器学习的方法得到了非常惊人的结果,他们发现通过投资搜索广告获得的点击继而造成的销售利润大概是成本的1400%! 这样的结果太过惊人,以至于Ebay自己都觉得不太可信,因为如果是真的话,那岂不是意味着只要拼命投资广告让更多的人通过广告点击进入Ebay就可以发大财?那运营企业也太容易了一些了吧。 经济学家们发现事实上造成这样的机器学习结果的重要原因是大部分点击广告人的确会在点击广告之后购买Ebay的产品,但是这可能本身就是一种因果错连。主要并不是因为点击所以才想买,而是想买所以才会点击。在矫正了这样的偏误之后,他们重新估计了广告投入带来的收益,发现事实上广告投入带来的平均回报是-69%而不是1400%。 大数据的发展的确很大程度上拓宽了人文社科领域的研究界限,但是作为方法的使用者来说,我们也更应当对于新方法的使用抱有谨慎的态度。不但要知其然,也要知其所以然,正确解读大数据预测的结果事实上深度依靠对于数据本背后产生数据的人的行为决策的深入了解,以及方法本身背后隐含的假设条件。 正如Susan的丈夫重阳真人Imbens所说:除了随机试验以外,所有的因果判定都是基于分析者对于预测模型的合理假设才能成立。 参考: Blake, Thomas, Chris Nosko, and Steven Tadelis. "Consumer heterogeneity and paid search effectiveness: A large﹕cale field experiment." Econometrica 83.1 (2015): 155-174. Athey, Susan. "Beyond prediction: Using big data for policy problems." Science 355.6324 (2017): 483-485. 原文章作者:略懂经济的韩颢卿,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
忧陶翱
发表于
4 天前
最后回复
窠驯
4 天前
2490
1
李虹均:大数据时代,企业该怎么利用大数据分析,更好地营销呢?
更多精彩,请点击上方蓝字关注我们! 雲禾集团CTO李虹均先生(左) 概述:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。 --- 麦肯锡 大数据时代已经来临 大数据(Big Data)一词经常出现在新闻媒体中,部分用户已经司空见惯。但大数据到底是什么?对企业来说,企业使用大数据有什么好处?遇到的挑战有哪些?企业应该怎么应用大数据进行更好地营销呢? 雲禾(浙江)科技集团是一家集科技研发、技术创新为一体的高新科技集团。集团聚焦于医疗健康、大数据、物联网、区块链、人工智能等领域。智链君就大数据相关的话题,采访了雲禾集团的CTO李虹均先生。 Q1:大数据从字面意思来看,是指庞大的、大量的数据吗? 大数据的特点 李虹均:最早提出“大数据”(Big Data)时代到来的是全球知名咨询公司麦肯锡。IBM提出大数据的5大特点:大量、高速、多样、低价值密度、真实性。大数据时代的出现简单的讲是海量数据同完美计算能力结合的结果,确切的说是移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。 由此可知,大数据不是简单的数据大。它实际上是我们当今社会所拥有的一种独特能力。我们通过对用户各种行为产生的大数据进行分析、预测, 就可以帮助企业精准营销、风险管控,向企业提供决策支持,并辅助产品设计,提升企业的效率。 Q2: 大数据的的时代下,数据量呈现爆炸式增长, 传统数据的存储、处理系统已面临挑战,应该怎么应对呢? 李虹均:数据正呈现指数级增长,与此同时所带来的在存储、查询、分析、挖掘等方面的需求不断激增。当业务规模越来越大,数据越来越多,数据库的出现将为爆炸式增长的数据带来更多希望。传统数据处理系统已不堪重负,数据库性能问题已成为了系统稳定运行的主要瓶颈。 数据库架构设计案例 显然,传统数据系统已无法满足以上需求,此时,数据库的架构设计与性能优化显得更加刻不容缓。只有让后台数据库适应业务模式的变革与升级,优化企业数据库,以此来满足数据量爆增所带来的存储、查询、分析、挖掘等种种需求;在技术方面,应该了解和探索行业更多前沿技术,重新进行数据库架构设计与性能优化。以此,才能让企业在大数据时代得以立足。 Q3:越来越多的品牌试图从海量的数据中分析出有价值的商业信息,以便做到精准营销。那如何把大数据分析做到极致化? 大数据精准营销 李虹均:1) 注重搜集用户数据,提升命中率。在大数据时代,许多品牌都纷纷抓住大数据分析的商机,例如趣多多利用大数据高性能分析精准锁定了以18-30岁的年轻人为主流消费群体,搜集用户数据,聚焦于他们乐于并习惯使用的主流社交和网络平台,如新浪微博、腾讯微博、微信、陌陌各种社交APP以及优酷视频等。 李莫愁代言百事可乐 2) 大数据分析、高性能分析,提高品牌关注度。比如:百事可乐选择吴莫愁做代言,是通过大数据的高性能分析得出的结果。”事实上,吴莫愁一出道便颇具争议,但查看她的商品大数据后,百事公司发现,吴莫愁具有相当高的美誉度,并且个性鲜明、带有很强的新生代印记,这成为百事选择吴莫愁的另一个要素。 3)运用大数据分析的力量,带动整个产业。再举个例子,一部《纸牌屋》,让全世界的文化产业界都意识到了大数据的力量。《纸牌屋》的出品方兼播放平台Netfli的股价上涨,是源于《纸牌屋》的诞生是从3000万付费用户的数据中总结收视习惯,并根据对用户喜好的精准分析进行创作。 综上,现在的大数据的发展已经发展能实时整合多平台数据,精准的识别客户,就连后期的客户接触也能做到实时性和个性化,这样就可以把大数据分析做到极致。 Q4:大数据时代,许多企业只会用户画像分析给消费者贴上不同的标签,然后把营销信息直接触达给用户。但大部分企业还是没能达到预期效果。这是什么原因? 大数据 李虹均:这是因为大数据营销存在的弊端。 1)数据来源容易出问题。 比如曾经有企业对针对线上线下的购买人群做了大数据分析,数据显示此次活动的收益大部分来自线上,然后,该企业就只针对线上的活动,最后收益甚微,这就是过于轻信数据从而带来错误策略。所以,使用数据的时候,数据的可真性要重点考察。 2)精准定位目标用户,意味着放弃了非目标用户。 大数据确实可以给企业带来精准定位目标用户,但降低了非目标用户购买自己产品的可能性,使得企业往往会或多或少的去忽略用户体验,比如某企业通过大数据洞察客户,去做一些只针对这部分人的活动,可是适得其反,把另一部分的用户给忽略掉,会出现非目标用户不恰当的消费行为。 Q5:由此可知,企业在大数据的分析和营销方面,有利也有弊。企业应该怎么利用大数据分析,更好地进行营销呢? 大数据精准营销 李虹均:大数据营销的利弊性是同时存在的,有利的方面,对用户行为与特征分析进行总结,从而精准的对用户们推送信息,可以更好的引导产品投其所好,改善用户的体验,不利的方面,太过于依赖数据分析也会导致做出错误决策,从而影响部分用户消费产品的可能性。 所以,在大数据时代的分析下,各品牌各行业都应该去“取其精华,去其糟粕”,体现的正是大整合的分析思维模式。虽说大数据营销有利弊性,但不乏做为一种参考思维。 主持人:好的,谢谢李总接受此次采访。 企业借助大数据营销 “大数据时代的背景下,数据已经渗透到每一个行业和业务职能领域,成为重要的生产因素。”在大数据时代,大整合的分析思维模式,可以帮助各品牌各行业更好地“取其精华,去其糟粕”。大数据的运用不仅体现在人们生活的方方面面,企业也可以借助大数据,进行更好的营销。 更多文章,请点击头像,进入往期内容链接>>> 原文章作者:智能科技频道,转载或内容合作请点击 转载说明 ,违规转载法律必究。寻求报道,请 点击这里 。
耿吉星
发表于
4 天前
最后回复
耿吉星
4 天前
1401
0
1
2
3
4
5
6
7
8
9
10
... 160
/ 160 页
下一页
返回首页
发帖
快速发帖
还可输入
80
个字符
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以发帖
登录
|
立即注册
本版积分规则
发表帖子
今天大家都在讨论的话题
春运槽点议起来:9成人遇到过“机票越搜越贵”,真是大数据在杀熟?
百度春节搜索大数据:山东人是春晚铁粉,“回家难”热度骤降
哪个年龄段司机最不爱系安全带?来看高速交警大数据
“大数据”锁定高学历青年 精准推送征兵信息
什么是大数据?大数据能做什么?
大数据必备常识,不会你敢说自己在做大数据?
做为一名大数据新手,应该通过这篇文章了解大数据
阮成发:迅速全面推广“云南抗疫情”扫码系统 运用大数据高效率精准化做好疫情防控工作
新型冠状病毒如何影响当前房价,从非典时期的楼市表现找到答案
央行33天投放3.35万亿,楼市影响几何?“黑天鹅”过后如何买房
在本IOT圈子中寻找帖子
搜索
IOT圈子地址
[
复制
]
看支付 创建于 2020-1-5
返回顶部
返回版块