怀柔信息港
网络
当前位置:首页 > 网络

微票儿技术VP杨森淼年增长4000背后的

发布时间:2019-05-14 21:44:15 编辑:笔名

微票儿,一个近期特别引人关注的上购票平台:估值近百亿、与格瓦拉合并、年增长率超4000%、月活突破2千万,覆盖全国500个城市4500多家影院,日出票达100万张,峰值200万张

这一连串的数据背后,有着什么样的支撑技术?日前,微影时代研发中心技术副总裁杨森淼做客腾讯云会客厅,对话腾讯云副总裁曾佳欣,解读了微票儿年增长4000%背后的大数据和云计算技术体系。

杨森淼表示,微票儿的核心在于利用大数据做营销及服务,通过卷积神经络(CNN)、奇异值分解(SVD)等算法对 200TB 用户数据和行业数据进行分析,微票儿得以地把握用户需求,提升了票房转化率;同时,面对用户量高速增长时期高峰值、大流量的挑战,云计算资源的高伸缩性、安全性也是支撑不间断运营的必备条件。

腾讯云副总裁曾佳欣(右)对话微票儿技术副总裁杨森淼(左)

大数据与深度学习的运用

成立仅短短500多天,杨森淼认为,微票儿能够入驻7亿活跃用户的、8亿活跃用户的,大数据是其核心优势。

微票儿会根据用户热度建议影院优化排片,首先通过数据分析用户位置和用户附近的影院,然后反哺上游,并为影院经理也开发微票专业版,帮助他们了解到自身影院数据,以肯定排期和行业大盘。可以说我们的核心竞争力就是利用整个大数据来为电影行业、演出及体育行业去做服务、连接和营销。

具体而言,微票儿大数据分析的数据来源主要包括4大类:

微票儿服务器生产的日志,包括要求访问的数据、接口调用产生的各种日志;

业务积累的数据,像影片排期、票房、交易定单的数据、每一项营销活动、评论等;

行业大数据,主要是泛文娱行业站外部可查可统计的数据及报告;

电影社区和用户互动数据。

目前微票儿产生的日志条目数上百亿条,业务累计的数据量不少于千万量级,行业大数据则是以爆炸性的速度不断扩展,目前微票儿的大数据的数据存储总量已达200T。

微票儿通过将这些数据充分融会,为每一个用户、电影、演出、渠道实体构建完整的画像,这其中的难度主要在于不同来源的数据的关系建立,数据种类复杂,来源不一导致很难构建统一的映照关系,目前微票儿通过不断完善匹配关系表再辅以匹配的模型,如语义匹配,海报或宣传照的类似度图像匹配等进行校正,不断的将数据融合满足业务上的拓展及运用。

算法

从逻辑上来看,这个过程又包括了两个部分的算法。

1. 特点工程算法

特征工程是指为了提高算法准确性,对数据做的一系列数学变换。这部份工程尤其重要,不光考验算法工程师的数学能力,同样考验工程能力。

巨大的数据集合没法在单机上进行特征抽取的时候,就需要工程人员需要从单机算法设计成为并行特征抽取算法。微票儿特征抽取工程上多采取深度学习(Deep Learning)技术,这是由于深度学习天然的络拓补结构更容易并行,并行存储也可以满足庞大数据量的存储需求。

固然,这些算法更多的是要去迎合使用场景。比如CNN(Convolutional Neural Network)和SVD(Singular Value Decomposition),这两种降维方法会因为业务场景不同而区分使用。

2. 目标结果算法

通过特征工程算法得到的重要维度,交给目标结果算法来处理。

除了常规机器学习/深度学习算法以外,微票儿对不确定数学的相关算法也有一些应用。因为许多场景下,精确估计表现并不是很理想,尤其当自变量解释能力不强的时候。

比如常用的 Regression 算法对肯定信息有着极高的预测能力,但是对于不确定信息来说显得比较无力。针对这类场景,微票儿采用了不确定信息的描述,诸如Entrop(熵)和lyapunov。

计算平台

计算架构上,由于深度学习技术的应用突破更多的是来源于模式识别,所依赖平台多为造价昂贵的CUDA平台(微票儿完成图片特征抽取这样的大型任务,会消耗掉500台左右的集群资源)。因此,除了平常所需的数据存储和抽取集群之外,微票儿把算法重点放在更远的并行内存计算技术上。

杨森淼希望可以把深度学习计算并行在造价低廉的内存计算平台上(如Spark集群),可以在不减少输入参数和神经络规模的前提下,更优地完成任务。为了抵消与高速GPU的速度差,微票儿使用了众多集群,并采取伸缩模式,训练过程结束之后,集群自动伸缩为一般模式,这样避免了与GPU集群一样的硬件必须消耗问题。

很容易看到,大数据平台不完全在云上。杨森淼比较了自建大数据平台和云大数据平台的优劣:

1. 自建大数据平台的优点

用户根据自身需求计划建设完全贴合业务需求的大数据平台,且平台建设与业务发展相互促进。

技术机构版本的升级、新技术的引入,资产管理、自动化运维、权限认证等系统研发完全由用户自己决定,可控性强。

大数据平台技术团队对架构中每项技术都会有持续深入的研究,保障了平台的稳定及不断创新,增强了公司的技术影响力。

2. 自建大数据平台的缺点

对平台技术团队成员的综合能力(学习能力、创新能力)要求较高。

IT行业的特殊性、对团队成员的稳定性要求较高。

3.云大数据平台的优点

服务商有完善的解决方案体系,根据用户的具体需求及运用场景为用户提供合适的技术架构。

每套技术架构又是一套完全的生态系统,除大数据平台本身,还附有资产管理系统、自动化运维系统、监控报警系统、权限认证系统、安全保障系统、各层面HA等。

4. 云大数据平台的缺点

提供给客户的每套解决方案常常不能完全贴合用户需求,加上技术架构各个组件及环节的定制封装,为用户增加了不同程度的学习及保护成本。

当用户需要将一些前沿技术或第三方组件整合到云大数据平台时,服务商常常需要很长的时间甚至直接告诉用户暂没有这方面的研发计划。

微票儿根据业务场景选择自建平台或者云平台:

业务数据仓库的建立目前还在本地物理集群,因为触及业务数据量大,且计算及配置环节较多,对数据准确度要求较高。

一些竞品分析预测、票房预测、舆情预测及用户行为分析等方面的分析、预测类计算,则是在云上完成的。一是因为数据来源较多,变化较快,云存储及计算资源申请分配灵活,可以较快响应需求;二来微票儿所有业务数据库都在云上,这样传输数据也更加方便。

一些实时计算及准实时业务服务,也大都在云上进行,这样可以的缩短由于络或数据交互带来的时延。

数据传输方面,关系数据T+1与T+0数据批量同步,百万级数据同步基本在1分钟内完成,流数据实时接收处理,秒级响应。

后续努力的方向,杨森淼表示,是如何发挥好在大数据和社交两个方面的核心优势,用懂社交的大数据把电影演出等娱乐产业和观众更好的连接在一起,比如腾讯云的优图人脸识别有效帮助了微票儿的数据采集,而这个能够更加丰富本身大数据,实现更好的洞察。

云计算保障无缝扩容

作为上购票平台,在用户量高速增长时期,都不可避免的会遇到高峰值、大流量的挑战,如何拥有一个稳定、安全的服务器,无疑是关键的问题。今年国庆档,微票儿在中国电影票房的份额占比突破25%,日均出票量达到100多万,峰值乃至高于200多万储票量服务流量较日常值多增长四倍多,各个服务单元也需迅速扩容倍的容量。

杨森淼表示,传统IDC机房方式在基础设施建设、安全管理、宽带和硬件快速扩容等多个方面有着很多的弊端,自主购买硬件装备也会带来大量IT成本投入,还需要一个巨大的运维团队。通过与腾讯云的合作,在购票高峰时段,微票儿迅速通过云去扩容。不仅如此,腾讯云的动态可扩展性有效帮助微票儿面对每日活动,快速扩展,并在高峰后及时退掉扩容设备,勤俭资源。

选择腾讯云,是微票儿基于详细考察和比较国内几家主流云服务公司,针对灵活度和扩展性、售后服务响应时间、平台服务器性能和价格等几个因素进行综合评判以后做出的决策。杨森淼表示,如此选择的缘由,是比较看重腾讯云技术团队的专业性和技术性。

在腾讯云平台上,随着微票儿的服务极速扩张,从云主机云DB负载均衡CDN安全扫描分布式防御等平台提供的各个功能都迅速快捷的得到使用,但每种新鲜事物在初次使用的时候肯定都会碰到问题,加上个别服务的使用与传统IDC方式的区别,微票儿在使用进程中确切碰到了一些小问题,不过在腾讯云平台的强大的技术支持团队的快速高效的沟通下,都很快解决了。杨森淼表示,通过腾讯云的服务,微票儿的运维团队人其实不多,但是每一次业务高峰期,都能迅速做出反应。

另外,微票儿在云上,DDOS攻击等外部攻击都无需自己担心。腾讯云有覆盖全国400+的络节点,以及百G的DDOS防护能力,能够有效帮助微票儿解决平台用户量剧增问题。不仅如此,腾讯云在云服务器、CDN加速服务、云监测、负载均衡等方面,也在为微票儿提供着高性能、专业、可靠的服务支持。

总结

在移动互联的时代,各行各业都在不断的产生着变革,微票儿借助大数据、云计算等先进技术力量,得以在日趋严峻竞争环境下脱颖而出。

杨森淼建议,创业者在移动互联时代应当大胆地拥抱新技术,拥抱云计算带来的便利。她认为,IT的技术演进和变化非常之快,在近的年,云计算和移动化应该会有很大的需求并成为主流。未来,大数据和社交将帮助微票儿更好地连接用户,云计算则为微票儿提供更专业的移动互联+O2O运营服务。

经期推后颜色发黑
排卵期少量出血
排卵期出血小腹疼