你好,欢迎来到中船通! 收藏中船通

大数据典型应用—互联网大数据

发布时间:2017-02-21 10:00 来源:中国大数据技术与产业发展报告(2014) 编辑:中船通 浏览:

大数据 大数据技术 互联网大数据应用

1、互联网大数据应用现状

随着互联网普及率的不断提升以及移动互联网的快速发展,互联网应用的发展趋势也在不断发生转变,发展重心从"广泛"转向"深入",对大众生活的改变从点到面,对网民生活的全方位渗透程度进一步增加。互联网应用的深入发展产生了海量的大数据,大数据是互联网的重要资源,也是互联网商业模式的核心价值所在,因此,大数据理论和技术在互联网应用中起到至关重要的作用。互联网应用的多样性导致其涉及的大数据内容呈现不同的特点,针对不同需求研究和采用适宜的大数据技术能够获得更好的互联网应用和服务,从而提升用户体验,带动互联网的整体发展。

根据中国互联网络信息中心2014年7月发布的最新一期《中国互联网络发展状况统计报告》,互联网应用主要分为四类:商务交易类应用、信息获取类应用、交流沟通类应用、网络娱乐类应用。各应用领域分别包括不同的应用场景,其中绝大多数互联网应用涉及大数据相关技术。特定互联网应用具有其固有特点,例如,增长率较高的与支付相关的商务交易类应用,要求大数据技术具有更强的针对性。又如,移动互联网的快速发展使数据本身发生了变化,也使大数据技术的应用面临新的机遇和挑战。通过深入分析互联网应用的特点,不断改进和完善大数据技术,使其与互联网应用更加紧密地结合,能够让数据本身为互联网应用带来更高的附加价值。

以下就大数据技术与互联网应用相结合的典型场景进行深入讨论。

2、大数据应用于互联网商务交易

截至2014年6月,我国网络购物用户规模达到3.32亿,网上支付是用户规模增长速度最快的商务类应用。网络购物用户规模的增长除了得益于商务部政策和新《消费者权益保护法》等对于电子商务市场的规范活动之外,很大程度上得益于电商平台服务的提升,尤其是企业基于大数据应用推出C2B定制化创新模式,更好地匹配了用户个性化需求,实现精准销售。

在互联网时代,由于用户群体庞大,当前电子商务平台必须面对海量的应用大数据。与此同时,用户提出了越来越强的信息过滤和个性化的需求。要想匹配用户个性化需求,实现精准销售,需要借助大数据技术在海量数据中提取精准信息,其中首要任务是充分分析数据特征。大数据时代,随着人们的生活全面向互联网和移动互联网转移,随之而来的是信息过载(informationoverload)问题,大量信息位于所谓的"长尾"区域。从电子商务的角度来看,由于货架成本极其低廉,因而商品总数很大。比如在淘宝网上,每天在线的货品超过8亿件。传统上的2/8原则(即80%的销售来自于20%的热门商品)受到了挑战。虽然绝大部分商品不热门,甚至得不到曝光的机会,但它们的数量极其庞大,因此这些长尾商品的总销售额将是一个不容忽视的数字。从用户需求的角度来说,这部分具有特异性的商品往往对应他们的个性化需求。

智能推荐系统是商务交易类互联网应用中典型的大数据应用实例,其目标是通过发掘用户行为,找到用户的个性化需求,帮助用户发现那些感兴趣但很难发现的信息。它以大数据为基础,应用个性化技术,帮助用户从海量信息中筛取所需信息。当用户需求明确的时候,他们会进行搜索;而当用户需求不明确的时候,则需要推荐。相比于广告系统直接提高收益的目标,推荐系统是在满足用户体验的基础上间接创造价值。推荐系统的应用场景主要有三个:第一个是根据物品推荐物品,典型的例子是在电商网站上推荐已购买过的商品;第二个场景是为用户推荐物品,最典型的是个性化邮件过滤和基于浏览历史的推荐;第三个场景是为用户推荐用户,像社交网站上的"好友推荐"和电商网站上的"跟您相似的顾客"等都属于此类。

大数据技术在智能推荐系统等相关商务交易类互联网应用中以不同的形式发挥作

用,按照其所基于的数据类型可以分为三大类,分别是基于内容的方法、基于协同过滤的方法和组合方法,特点如下。

基于内容的方法。处理对象包括用户和物品信息,对数据进行特征化表述,并收集用户是否选择过某个物品的数据,把推荐问题转化为分类问题。基于内容的方法简单且直接,适合处理冷启动问题。

基于协同过滤的方法。基于用户行为分析的推荐算法,用户通过协作,即不断地和网站互动,使推荐列表不断过滤掉自己不感兴趣的物品,从而越来越满足自己的需求。协同过滤类推荐方法的适用性较广,更倾向于推荐比较流行的物品,较难实现推荐的多样性。

组合方法。同时实现两个或者多个不同的方法并组合最终结果。

大数据技术在互联网商务交易领域应用十分广泛,在智能推荐系统等重要应用中起着至关重要的作用。但是必须指出的是,互联网商务交易中大数据处理仍然存在一定的挑战,主要体现在以下几个方面:

数据稀疏性问题。由于互联网应用中有效数据所占比例较低,因此在极端不均衡数据上会出现参数抖动严重等情况。

数据规模问题。在很多应用场景中,有千万级的用户和百万级别的物品,用户/物品关联矩阵达到百亿甚至十万亿的规模,对于大数据存储、处理和计算是很大的挑战。

冷启动问题。这一类问题没有固定的解决方案,需要针对不同的应用场景提出不同思路。

评估的多标准问题。数据评估标准有很多,包括精准性、覆盖率等定量指标和实效性、健壮性等定性指标,需要根据应用场景制定大数据处理原则,通过合适的技术构建系统并完成评估。

3、大数据应用于互联网信息获取

搜索引擎是最主要的互联网信息获取类应用,截至2014年6月,我国搜索引擎用户规模达5.07亿,使用率为80.3%。2014年上半年,搜索引擎创新技术的实际应用取得了一定进展,企业基于"语义搜索"与"知识图谱"技术,整合社交、视频、旅游、软件应用下载等多类信息,开发并上线新的搜索产品。搜索引擎在PC端及移动端均形成了以搜索产品为核心,集地图、娱乐、购物、社交、本地生活服务等应用为一体的搜索服务,提升了用户体验和使用黏性。

搜索引擎天生就是一个大数据系统,互联网产生了海量数据,如何从中找到需要的信息就是一个大数据的命题。同时,利用大数据理论和技术,通过对网民搜索内容、习惯、爱好、行为、关键词等的深入分析,可为网站的建设和搜索引擎技术的改进等提供依据。

搜索引擎的诞生从一定程度上满足了用户在海量互联网数据中查找信息的需求,但还存在很大的可优化空间。传统的搜索引擎根据查询词返回相关网页链接,还需要用户自己阅读大量网页内容才可获得所需信息,对于手机等移动终端用户而言很不方便。

为了克服传统搜索引擎的弊端,人们正尝试探索更高效、更人性化的搜索引擎技术,如直接搜索或知识图谱搜索。直接搜索是指提问或输入关键词后系统直接提供答案,而不是包含答案信息的链接或相关文档。系统自动完成答案抽取,帮助用户快速定位所需信息,从而可节省用户阅读大量网页或文档的时间。知识图谱则是展现搜索词相关知识,通过结构化的方式予以呈现,让用户可以快速、全面地了解相关信息,增强使用体验。为了达到这一目的,首先需要理解用户查询的问题,同时要了解问题所对应的答案。答案需要从海量垂直网站或者用户搜索词中挖掘,挖掘方法包括基于半监督学习的新词及专名挖掘、面向垂直领域定向抽取的三元组挖掘、基于用户行为日志数据的实体关联挖掘和基于搜索引擎的实体语义标签挖掘等。

抓取并索引的网页数量是衡量搜索引擎质量的重要因素之一。如今,百度、必应、谷歌等主流搜索引擎都要抓取数以千亿计的网页,同时索引数百亿的网页,以提供良好的搜索服务。为了处理如此巨量的数据,MapReduce、Hadoop等大规模数据处理系统应运而生,利用这些系统,搜索引擎公司就能高效地计算网页的各项特征,为索引数十亿计的网页打下基础。此外,在线系统也已演化为高度并行的容错系统,以保证在有上百万用户同时使用的情况下,搜索引擎仍可在1秒内为绝大多数查询返回结果。

为了进一步提高搜索效果,搜索引擎越来越多地引入自然语言处理技术和知识库技术。和传统方法相比,这些技术更加复杂、计算量更高,因此要求大数据系统提供更高的计算能力。改造大数据系统的途径有很多,例如,进一步增加系统中节点的数量、充分利用CPU的多核能力、利用显卡的运算能力,甚至直接使用FPGA执行定制化的处理算法等。另一方面,进一步理解查询和用户意图/兴趣变得越来越重要。与理解网页不同的是,利用查询历史理解查询和用户意图/兴趣常常需要用到基于图和矩阵的算法,这些算法和MapReduce式的计算框架并不完全契合,因此需要研究新的计算框架,以便提供支持。

4、大数据应用于互联网交流沟通

随着国外社交网站Facebook、Twitter、LinkedIn等的发展以及国内的微博、微信等社交工具的不断壮大,基于社交网络的各种互联网交流沟通类应用不断演进和发展。单就我国互联网应用现状来看,截至2014年6月,即时通信网民规模达5.64亿,使用率仍高居互联网交流沟通类应用第一位。与此同时,社交网站使用率则持续下滑,前景不容乐观。以上两方面现象的根本原因都是数据流向决定用户黏性。社交网络之所以吸引人,是因为其用户产生了大量有价值的用户数据(UserGeneratedContent,UGC),而且这些数据能和一个个活生生的人对应起来。因此,对社交网络上产生的各种用户数据进行分析,是社交网络分析中极其重要的一个方面。

无论是即时通信、社交网站、微博还是博客,都是网民交流的平台,每天产生大量的数据。通过对社交网络中的大数据进行分析,可以了解用户的思维习惯及其对社会的认知。对微博等社交网络信息空间的大数据进行挖掘,能够及时反映社会的动态与情绪,预警重大、突发和敏感事件(如流行疾病爆发、群体异常行为等),协助提高社会公共服务的应对能力,对维护国家安全和社会稳定具有重大意义。

社交网络中一个典型的大数据应用场景是舆情分析,即对热点事件在网络上的传播过程加以监测,了解人们的态度,从而在必要的时候加以干预和引导。在当前这个社交网络高度发达的时代,公众对于很多问题都有发言的欲望,加之社交网络上信息传播的快速性和不可控性,舆情分析对于政府、商业实体和公众人物都有着重要的意义。对于舆情分析的支持系统来说,处理逻辑往往相对简单,比如按照特定关键字对相应的内容进行过滤,其中最关键的技术要求就是对海量数据的实时处理,这就需要高性能的大规模并行处理数据库或者流数据处理系统的支持。另一方面,社交网络上的用户产生的大量内容往往存在着大量的隐含信息,对这些信息进行综合处理往往会得到非常有价值的信息,比如对热点事件的预测或预警。在社交网络时代,信息发布的门槛较低,信息传播速度快,各种真实和不真实的信息在社交网络上随时都可以形成爆炸式的传播。利用大数据技术收集社交网络上传播的数据内容,分析其背后隐含的意义,能够对特定的事件进行预测。

此外,影响力分析也是社交网络中需要运用大数据技术进行处理的关键问题,用户在社交网络中的行为(比如对微博的评论、转发等)也代表了影响力,例如新浪微博上的大V账号,其粉丝动辄上百万,发布的任何一条微博的转发数和评论数都极其巨大,换句话说,他们有着巨大的影响力。在利用大数据计算影响力的时候,需要将相应的数据考虑进来,对社交网络节点的影响力进行量化就是影响力分析要解决的问题。影响力分析的一个扩展应用是用户搜索。社交网络将人们的互联网生活和虚拟生活融合在一起,人们在社交网络上形成了各种社区,产生了大量不同领域的内容。通过其所属的社区和其产生的内容,可以定义一个社交网络账号的属性,为其打上特定标签,为其他用户可以方便地通过关键字进行搜索。

对社交网络大数据的分析和挖掘仍需要解决以下两个重要问题:

第一由于微博、博客等数据源自多个服务提供商,具有不同的属性和不同的表达方式,是典型的多源异构数据,因此需要使用基于语义模型的表示方法,以实现对社交网络数据的有效表示和理解。

第二对社会事件、流行病等相关内容、信息和数据,实时性要求非常强,需要强有力的流式处理、增量处理等技术手段提供支撑,并且需要建立快速反馈机制。

5、大数据应用于移动互联网

移动互联网虽然发展较晚,但发展速度要远快于互联网。截至2014年6月,我国手机网民规模达5.27亿,网民中使用手机上网的人群占比进一步提升,由2013年的81.0%提升至83.4%,首次超越传统PC网民规模。随着移动设备的功能越来越强大,移动互联网与传统互联网之间的差异愈发不容忽视。

移动互联网具有互联网的传统特征,但也有其自身的固有特征,特别是和时间信息相对应的地理位置信息是其独有的数据特征。移动互联网最大的特点是以用户为中心。一个移动设备对应一个用户,包含位置、联系人、浏览内容等所有信息。数据本身的价值在于更完整和更生动地描绘了用户的生活轨迹。互联网时代,内容的组织不以用户为中心,所以主要商业模式是广告,跟内容相关而不是跟用户相关。移动互联网则能够进行更好的数据整合,属于同一个用户的数据都可以关联在一起。以用户为中心,就能够方便地把属于一个用户的散乱在不同应用里的信息整合起来进行分析。

对于大数据分析来说,移动互联网的特殊性首先是能够锁定一个特定用户,其次是能够获取用户地理位置信息,再次是时空信息等多元化的数据种类。由于这三点,导致移动互联网上的数据数量比传统互联网更大,形式也比传统互联网更加丰富,从而有更高的价值。移动大数据有三个特点:

数据的核心节点是人。随着各种移动设备、物联网和云存储等技术的发展,人和物的所有轨迹都可以被记录。与互联网不同的是,在移动互联网中的核心网络节点是人,而不再是网页。用户在移动终端上的所有行为是具有一定延续性的,这使得用户档案(pro?le)的建立成为可能。

用户地理位置等上下文信息。移动互联网上能获取的最重要的信息就是用户的地理位置,通过地理位置信息与服务数据的结合,能够更加精确地分析用户行为,实现用户描述精准化。数据量更大,时空数据维度更高且更复杂。移动互联网需要统计很多互联网网页分析所没有的数据,例如设备型号、应用版本、推广渠道甚至位置信息,同时还有很多开发者自定义的事件。在移动互联网的数据中,文字以外的其他信息占到更加重要的比例。从数据的属性上来讲,移动互联网上的数据更加复杂,其中一个原因就是这些数据包含了大量时间和空间信息,需要把普通数据挖掘延伸到时空数据挖掘的领域。因为多了一个维度,时空数据挖掘的复杂度比一般的数据挖掘又深了一层。

移动应用是抢占用户移动终端桌面的主力军,是用户获取信息和休闲娱乐的主要方式,是用户上网的主要入口。对于移动应用来说,大数据技术的应用主要在于如何通过数据挖掘改善产品体验、实现差异化竞争和产生商业价值。移动应用分析的目标是理解用户如何与移动应用进行交互,其分析内容包括:

用户获取、活跃、留存、转换分析。统计新用户、活跃用户、一次性用户以及用户属性信息(如设备信息、地理位置、运营商);统计用户的日/周/月留存率、应用使用时长、使用频率等,以通过分析提高用户忠诚度。

用户分群分析。对用户按人口属性、兴趣、地理位置、使用情况、留存情况、付费情况等分类。通过用户群划分,开发者可以根据自身需求设置出不同的用户群,这一过程实际上就是通过一定设定条件将用户筛选出来。

跨应用和跨平台分析。除了前面提到的单应用内数据统计分析外,通过跨应用大数据分析能够了解目前发布的所有应用的数据情况,让开发者了解自身应用在行业内所处的位置和现状。

移动互联网上的数据除了拥有特殊价值外,也给大数据分析带来了很多挑战。主要体现在以下几个方面:

数据质量。首先是数据采集的质量,在移动数据采集过程中,网络不稳定等状态导致移动端数据无法较好地上传,这使得移动大数据分析需要更复杂的数据补偿策略。其次是数据的噪音和稀疏性更强,移动端的应用数以十万计,且在每个应用中两个用户之间的重叠非常少,很难根据特征通过分类模型对移动用户的人口属性进行分类预测。最后是移动互联网本身的各种作弊行为导致数据不准确,大量移动应用通过刷量来冲击移动互联网应用排行榜以获取投资人的青睐。大量移动互联网公司付费给水军来给自己的应用发好评,给竞争对手的应用发差评。这些数据所占比例过高,已经严重干扰了数据的准确性,大大降低了移动互联网数据的整体价值。

用户时空行为模式的挖掘和利用。移动互联网应用之间差异较大,用户对于应用的选择更是千差万别,深入挖掘用户的行为模式能更准确地抓住用户喜好,同时也是当前大数据技术在移动互联网中面临的重大挑战。

跨应用、跨平台多维数据的交叉利用与用户隐私。目前移动端的应用多处于信息孤岛的状态,并没有真正实现数据的互联互通。数据的整合分析无疑能够带来全新的应用环境和用户体验,如何在保护用户隐私的情况下进行用户全局数据互联互通和交叉利用将成为移动大数据分析的挑战。

6、互联网大数据发展趋势

从以上典型应用场景可以看出,互联网与大数据互相依托,互联网是产生大数据的最主要的平台。在互联网应用中,大数据源源不断地产生,通过分析、处理反作用于互联网应用。因此,大数据技术是互联网发展的动力,大数据技术使互联网应用更加贴合用户需求和网络发展方向,从而不断发展壮大。

大数据最主要的发展趋势是与移动互联网结合,针对移动互联网固有特征,改进自身技术以更加适应移动互联网应用需求,实现移动互联网和大数据的有机结合,并且渗透到人们日常生活的各个角落,真正达到以大数据和移动互联网影响和改变人们生活的目的。短期内可以预见的是,大数据技术将在移动电子商务、即时通信、社交平台、移动网络游戏等应用领域中迅速发展并寻求突破,成为相关领域的核心技术。


精彩推荐