大数据核心技术与应用论坛:业务应用及技术生态圈探索
大数据核心技术与应用论坛:业务应用及技术生态圈探索发表于2015-06-09 17:24| 2318次阅读| 来源CSDN| 4 条评论|作者仲浩大数据开源CCCC2015云计算云计算大会HadoopSpark摘要:百度高亮、微软刘震、中国电信王兴刚、搜狐李滔、AdMaster卢亿雷等专家从业务应用、技术实践、生态圈集合等方面诠释了大数据所带来的核心竞争力。
大数据核心技术与应用论坛:业务应用及技术生态圈探索
在6月4日下午举行的“大数据核心技术与应用论坛”中,中国大数据专家委员会副主任委员、北京邮电大学副校长郭军,百度大数据部研发总监高亮,微软亚洲工程院院长刘震,中国电信股份有限公司云计算公司副总经理王兴刚,中国大数据专家委员会委员、中国电子学会云计算专家委员会委员、北京友友天宇系统技术有限公司总经理姚宏宇,搜狐大数据中心技术经理李滔,AdMaster技术副总裁卢亿雷等专家一起对大数据技术和应用两个方面进行了深入分享和探讨。
中国电子学会云计算专家委员会委员、百度技术委员会理事长 陈尚义
大数据核心技术与应用论坛在中国电子学会云计算专家委员会委员、百度技术委员会理事长陈尚义的主持下召开,他首先介绍了本论坛受邀分享的机构和嘉宾。随后,在介绍到百度时,他表示,大数据当下已支撑百度的所有业务,并开始对外输出。
郭军:大数据的几点常识
中国大数据专家委员会副主任委员、北京邮电大学副校长 郭军
中国大数据专家委员会副主任委员、北京邮电大学副校长郭军发表了开场致词,对大数据的各种特性进行了讲解。
郭军表示,作为大数据,它首先要满足以下几个特征:大量性 (high volume),规模超常、不断攀升;速生性(high velocity),高速产生、稍纵即逝;多样性 (high variety) ,种类多样、来源多样。正是基于这些特性,海量的数据给常规技术带来了众多挑战:难以得持,获取、存储、管理;难以处理,传递、共享、可视;难以分析,关联、聚类、分类。因此,为了应对这些挑战,机构可以从以下数个方面着手:核心支撑,借助机器学习、数据挖掘、数据融合等技术;架构支撑,采取众包、并行数据库、云计算等方式;辅助支撑,借助信息安全、智能搜索、可视化等技术。最后,郭军还分享了大数据的典型应用及数据分析流程等知识。
高亮:互联网大数据和传统企业融合经验和心得
百度大数据部研发总监 高亮
百度大数据部研发总监高亮表示,自2014年初成立单独的大数据部门,当下已经有数百名工程师,同时提供对内核对外两个方面的支持。在演讲期间,他主要分享了百度的大数据引擎、互联网企业的三种服务、百度大数据解决方案及其大数据营销,并介绍了百度做出的一些尝试:百度思南、百度舆情和百度推荐,其中推荐的价值体现在三个方面:提升用户体验、提升流量、提升商业价值。
演讲期间,高亮表示,如果对近年来的系统架构分层,主要可以分为3个方面:首先,硬件基础设施;其次,基础设施上所运行的基础;最后,技术上所跑的数据。而根据归属的划为,主要可以分为4个时代:1,提供技术的时代,以IOE为代表,为用户提供相关的技术,硬件和数据由使用者自己负责,这也是互联网出现之前的主要思路;2,基础设施租赁时代,即IaaS时代,以AWS为代表,为用户提供所有的基础设施,用户可以按需选择是否使用服务提供商的技术服务;3,SaaS时代,这个时代已经将软件作为一种服务提供,最为典型的代表就是Salesforce;4,数据即服务的时代,提供商交付的是一种见解,不再是单纯的技术和硬件,主要典型有百度舆情和百度思南,同时这也是最宝贵的,因为在大数据如此火热的年代,将数据分享并不是一件容易的事情。随后,高亮分享了百度在“大数据技术走出去”上所做的努力,并着重分享了大数据营销上的尝试:
- 百度思南——百度司南专业版和百度司南大众版是通过挖掘网民的搜索行为信息,分析人群特征及优化广告策略的大数据营销工具,为您解决营销决策中的难题,实现精准营销。
- 百度舆情(用户版、政府版)——以化妆品为例,分析网民的真实偏好。
最后,高亮还详细分析了百度推荐的尝试,并指出推荐所存在的价值:提升用户体验,缩短“内容↔用户”的路径;提升流量,延伸或激发用户的需求,提高步长;提升商业价值,提升付费转化率。
刘震:智能服务如此触手可及——微软大数据核心技术与应用
微软亚洲工程院院长 刘震
微软亚洲工程院院长刘震表示,在大数据的时代,分析已经成为商业成功的一个关键推动点。深厚的数学知识是人工智能的基础,海量的数据是建立良好模型的关键,然而这些构建分析所必需的条件却是大多数开发者所缺乏的。 在这个演讲里,他介绍了微软的Project Oxford (牛津计划)“智慧大脑”,旨在为开发者在开发智能服务时提供非常简单而基本的分析API。
演讲期间刘震指出,根据IDC的计算,投资大数据可以获得10倍以上的回报,然而其中存在的挑战也不可谓不艰巨,其中之一就是将数据打通,将所有信息连接。通过技术的应用,抽取各种洞察,然后再把这些洞察变成决策,这种工作不光是要从编程、硬件、软件上要达到一定的规模,比如数据存储就是个艰巨的挑战,而这些微软平台上基本都有实现。
同时,如果想提取洞察,数据科学家和工程团队的合作同样是一个难点。因此,即使大数据很有前景,但是其中却存在着大量需要打破的壁垒,而微软推出的“牛津计划”正是为了解决这些问题。随后,刘震以how-old.net为例,为大家阐述“牛津计划”的冰山一角。
吴章先:大数据领域探索与实践
中国电信股份有限公司云计算分公司大数据事业部产品总监 吴章先
中国电信股份有限公司云计算分公司大数据事业部产品总监吴章先从运营商大数据探索、中国电信大数据探索、中国电信大数据实践三个方面展开了分享。期间,他介绍了中国电信的大数据体系框架规划,主要包括四个方面:大数据经营管理、大数据业务与应用、大数据产品开发、数据采集和汇聚。同时他指出,中国电信将建设中国电信大数据集约平台,这一平台将会是国内首个运营商全量大数据集约平台。
吴章先表示,从数据体量和价值上来讲,中国电信绝对可以划分到土豪的圈子。从2013年开始升温,大数据的火热已经快赶上A股的股市了,大数据的应用更遍布各行各业,包括政府、旅游、零售、医疗等,甚至被用于做詹姆斯的防守决策。而在中国电信,当下已经成立了独立的大数据部门,除下对自己固有服务的探索,还用于服务一些外部应用。而时至今日,用户的每个短信、每个呼叫都会被电信的大数据系统采集,分析并为用户提供最优质的服务。
在演讲期间,吴章先还指出,运营商数据通常比较分散,在传统数据节点上都有不同的数据,这些数据都分散在各省,因此中国电信实现了一个全网数据的一点汇聚、集约管理、多点服务的架构。这个架构会根据各省的具体情况,采用数据直接上传。鉴于这个数据的体量,暂时还在优化当中。而在具备能力的省份,一个是在本省会设立大数据平台,同时也会做标签上传,在数据的采集最基础这一层,首先做了数据的装载,整个数据最终汇聚到内蒙古的云资源池。
谈到云资源池,吴章先表示,中国电信作为基础运营商形成了N+2这样一个云资源池的架构,在内蒙、贵阳建了亚洲非常大的资源池,包含上万个节点,数据会汇聚到云资源池里。整体上呈现一个以内蒙云资源池为主,构建集约的大数据汇聚平台,其中还包括对数据规范和格式的统一,并以纵向汇聚为主,利用现有平台,快速实现数据汇聚
在构建大数据生态圈上,主要以数据汇聚为基础,以产品服务为目标,三个步骤互相促进,共同构建大数据生态圈:第一步,从简单的数据及基础设施提供,到数据处理加工的实施;第二步,从数据处理加工,到从数据到知识的分析、钻取、挖掘;最后,从知识分析获取,到将知识融入产品,实现经济价值和社会价值。最终实现以市场为导向,以产品为核心,以技术为引擎,以数据为基础,实现市场、产品、数据、平台的循环发展。
最后,吴章先还从全流程的风险防控服务、全息预警与规划决策和大数据分析挖掘平台服务3个方面分享了中国电信在大数据领域的实践。
姚宏宇:大数据平台的核心挑战及架构思考
中国友友天宇系统技术有限公司总经理 姚宏宇
分享上,中国友友天宇系统技术有限公司总经理姚宏宇首先指出了企业IT架构的发展趋势:数据是企业的战略资产,企业信息系统架构的发展重点从业务应用为核心转变为业务数据为主线;企业信息系统正在迅速演进为大规模复杂系统,用系统工程的思路和方法论去解决其面临的挑战;基于云计算的新一代企业信息系统在技术上具有一定的渐进性,但是在架构的思考和设计上则具有很大的变革性。并指出了传统竖井式架构问题:1、以业务为核心,数据彼此隔离;2、业务系统独享软硬件资源,不能复用;3、规模化系统的维护面临极大挑战;4、无法快速调整,满足业务和市场变化的需求。
随后,姚宏宇介绍了统一运行支撑平台的设计思想,并指出了其中所存在的核心挑战:统一数据支撑平台的核心挑战就是数据库云化。怎么把关系型数据库这个技术,让它具备云的特点,可以扩展,性能可以提高。把原来的问题全部消除了,这是数据库云化的核心挑战。因此问题变成把不该放在关系型数据库的数据拿出来,包括量非常大的,放在适合的储存技术体系里。现在所解数据库是关系型数据库,再过几年这个数据库就会变成一种新型的,能融合所有的数据方式,而且能忍受底下任何系统出现问题,通过这样一个系统全部整合在一起。随后,姚宏宇更从多个角度对平台的设计要求进行了总结:
1. 系统的角度——如何采集数据并转化。大数据本身就是用来设计支撑上层应用的,因此在系统角度,如何让数据服务层对其透明至关重要。这样才能保证,不管变更什么应用,都与底层无关。 同时,数据分布组件亦至关重要,你必须选择合适的技术来适应不同的场景,从而保证足够的性能。最后,还需要兼顾运营管理,在实践中这是一个非常巨大的挑战,你怎么在这个平台上选择不同的技术,怎么保证每个技术,每一个体系,每一个模块都能运行的很好,至少能感知到,先不说自动解决。刚才我说的是系统的视角。
2. 功能的视角——从数据存储、管理、处理这三个大类。在平台的迭代后,你需要保障数据库变迁的可能,并让迁移变得足够简单。
3. 技术的角度——采集、存储、分析和可视化。
李滔:推荐算法和Spark实现
搜狐大数据中心技术经理 李滔
在搜狐大数据中心技术经理李滔的分享中,他首先介绍了广告和新闻推荐的共同和不同点:相同点,它们都可以视为都可看做一个点击率(ctr)估计的任务,其特征都包含了用户、商品、上下文三个维度,同时点击率也是动态变化的;不同点,推荐产生的点击率可能是广告的10到100倍,同时在特征描述上,广告通常是细粒度特征,而推荐对应的则是相对粗粒度。
在广告系统架构中,李滔表示,推荐有很多类似的地方,上面是用户的广告请求,包括一些时时交易的请求会从上面过来。同时,整个系统分为左、中、右3个部分:左边主要是关于离线模型,像用户地位,用户定向,这些主要是从日志数据、历史点击数据提炼出来,比如用户的喜好,或者是一些地理信息这些。这一类型的数据会送到下面,这个离线模型会用来做广告点击率的预估。右边是实时流处理部分,做一些短期行为和长期行为对比,其中会有一个模块,通过用户实时的短期行为估计他的定向。这里重要的是有一个广告的实时索引,因为对像搜狐这样的门户来讲,广告主的数量比较大,可能对每一条广告过来之后做一个实时排序,结合这个页面的信息,还有用户的信息,然后通过一个索引检索出可能是用户感兴趣的广告。这部分可能的侯选的广告会进入到黄色的部分,排序好了之后会综合考虑到广告的点击率和广告主的出价。排序得到结果之后,下面有一个模块,这个模块主要是做广告投放策略控制,比如现在是出基本广告还是出展示广告。最后会得到一个反馈,会筛选出一条用户最感兴趣的广告给到投放系统,下面是一些日志的处理。
对于CTR预估建模过程,李滔表示这主要分为三个步骤:日志处理,包括数据的清洗;特征抽取模块,主要是分成3个——上下文、曝光时间、IP和广告栏位。而在用户兴趣建模上,主要则根据用户的阅读历史,同时用户的新闻阅读分布式有偏的——热点新闻的巨大点击量以及新闻的曝光是有偏的。因此,用户标签只能建立在用户相对于平均分布的偏离度上。
在此之后,李滔分享了Spark带来的优势:Spark丰富的数据处理操作,Map、Reduce、filter、join、cogroup等;处理时间相对于Hadoop缩短近10倍;代码量大为减少。他还针对广告和新闻推荐建模进行了分享,主要分为3步:
- 多信息源的有效利用——支持多维度的特征及特征组合、避免过拟合 (Overfitting)。
- 探索(Exploration)和利用 (Exploitation)之间的平衡——Exploration,获取信息; Exploitation,根据当前信息决策;Bandit方法,ε-Greedy、UCB;Bayesian方法, Thompson Sampling。
- 在线训练
最后,李滔针对Spark的具体优化实践进行了详细分享。
卢亿雷:Hadoop 与 ElasticSearch 的融合
AdMaster技术副总裁 卢亿雷
来自AdMaster技术副总裁卢亿雷给大家分享了AdMaster实战中Hadoop与ElasticSearch 的融合分享,从Hadoop生态系统和ElasticSearch特点出发,深入解读了两者的融合过程以及在AdMaster中应用。
Hadoop经过多年的发展,已经有了丰富的应用场景:
- Log 分析,用户计数,数据查询
- 倒排索引,数据分析, ETL
- 文本分析,市场分析,数据校验
- 工程模拟,数字分析,性能测试
- 图分析,网页索引
而Elasticsearch是一个开源的分布式实时搜索与分析引擎,支持云服务。它是基于Apache Lucene搜索引擎的类库创建的,提供了全文搜索能力、多语言支持、专门的查询语言、支持地理位置服务、基于上下文的搜索建议、自动完成以及搜索片段(snippet)的能力。
图为ElasticSearch 系统架构
卢亿雷总结Elasticsearch有这几个特点:JSON进行数据索引、 RESTful搜索引擎和分布式Lucene。与此同时也有很好的应用案例,比如Github 使用 Elasticsearch 搜索 20TB 的数据,包括 13 亿的文件和1300 亿行的代码。
在Hadoop与ElasticSearch 融合方面,他指出,Hadoop作为一个基础存储,通过ElasticSearch抽取一部分热数据放在里面,你通过插件用ElasticSearch方式存储起来,最后做到展示。细节的融合方面,先把Web日志收集过来,再通过Hadoop以实验的方式,把数据通过一个计算再存到ElasticSearch上,最后展示出来。其次是Kibana可视化,基本上我们做的数据分析都可以做,如果只是做日志的检索分析,Kibana就可以实现我们的学习。
更多推荐
所有评论(0)