搜狐邮件技术中心总监邱英波:搜狐云存储给技术团队带来极大好处

 中国邮箱网  0条评论  6876次浏览  2013年08月14日 星期三 15:55

分享到: 更多
中国邮箱网讯 8月14日消息,今日,2013中国反垃圾信息年会将在北京国际会议中心举行,搜狐邮件技术中心总监,搜狐武汉研发中心总负责人邱英波做了关于《搜狐云存储发展之路》的主旨演讲。

 

邱英波讲话文字录:

 

各位朋友下午好,很高兴今天在这有一个机会跟大家一起分享以下搜狐在云存储还有云计算做的努力。传统的三大门户搜狐、新浪、网易,加上腾讯和盛大还有阿里,我们今天来看这七大公司其中有五家,除了搜狐和网易之外分别提出了云计算这样一个产品的策略。那么搜狐到今天为止关于搜狐公司自己在云计算云存储这方面的技术和一个产品的战略是什么样子,很少从公众领域来去跟大家有这么一个分享。今天可能是第一次搜狐这样一个产品技术部门在一个公开场合向公众去阐述一下搜狐在这些领域方面的一些进展。

 

其实说起云存储这个系统,作为互联网免费电子邮件服务,可以算是云存储这个领域最早期的一个应用。那么中国互联网在这十几年这样一个飞速发展的过程当中,用户从无到有,到移动互联网,基本上说现在网民已经占据了中国消费者这样一个绝大多数的情况,而且互联网的中国网民在互联网消费的时间,所消费的内容也是在越来越爆炸,马上就要到达一个顶端。这个过程当中互联网产生,互联网公司提供服务,对于数据存储面临压力越来越大。传统最开始做互联网产品,由NAS进行存储,随着时间累计,网民对质量的需求,使得传统NAS的结构越来越难满足人们对这样服务的需求。

 

就我个人估计像腾讯还有网易这是中国目前最领先的两家免费电子邮件服务提供商,我们提供电子邮件的服务我估计他们提供的存储的数量应该达到了100PB这样一个级别。这是什么概念,一般来说我们用NAS服务器做存储,用直连4、5U提供平均5、6T这样一个存储的情况。这对于网易来说这可能意味着后台有五千台服务器在后台提供这样存储,就算4个U要两万多,好几个机架才可以搞定,这意味着巨大的成本。

 

 

随着互联网技术的进步,刚才所指网易或者腾讯的邮件只是冰山一角,互联网包括相片、网盘等技术出现对存储要求非常高。大概在2005年2006年的时候,这个时候谷歌推了一篇论文,就是讲谷歌怎么做这个云存储的技术。从谷歌论文开始包括国外的开源技术,也包括中国互联网厂商纷纷派出去研发自己分布式云存储的平台。搜狐也大概在2011年4月搜狐成立了北京研发中心,我们在北京研发中心定义为做互联网分布式云存储的研发。我们这个团队的工作分为三个部分。

 

包括海量小文件的存储平台。大文件的存储平台。还包括我们有一个比较特色的一个项目搜狐海量结构化数据存储的数据库。海量小文件存储平台,这个针对于更多面向于邮件的应用,对于邮件的应用当你存储的数量达到几十P,100P这个级别,除了存储成本之外,它的管理成本也是相当高的。我有100个P存储我去备份,我备份可靠吗?是否需要再来一个备份,万一我备份坏了,我怎么把100P的数据找出来恢复原样这对我们云存储提出了挑战。

 

在谷歌所发出关于分布式的文件存储这样一个论文里面,其实它主要的一个技术,主要关注大文件的存储,可能更追求一个整个的吞吐量而不是海量文件的问题。我们现在一些开源的系统比较有名像Hpdoop基于这个文件系统研发而来的,这个关注大文件,像邮件小文件存储系统不是很好。搜狐北京研发中心我们针对海量小文件的存储专门做了优化,并且我们最后把小文件,大文件,结构化数据存储数据库,这个数据库是比较有特色是一个二级索引,这使得我们海量数据库可以取代(英文)的应用,对于应用开发者来说就是说你可以在你做应用的时候,不用去考虑邮件、相片数据的存储,包括数据库的设计仍然可以拓展你的思维不用再去考虑你数据库的优化,不用想怎么分布,我们这个数据库可以满足你当你条目达到亿级十亿级以上的时候,我们数据库是伸缩的可以提高效果。

 

我们搜狐的内部云存储在2011年底开始完成,然后开始在搜狐内部开始分别的去应用。首先应用的是搜狐相册,我们这个云存储系统为了在搜狐相册上有一个更好的应用,它还针对于图片存储特点,研发像CDN,怎么终端用户更好更快访问它,以及包括像图片自动裁剪这样图片大小的优化,这样专注于相片格式文件所相关的存储的应用。在搜狐相册首先内部应用提供之后,随后我们搜狐社区在去年也开始把自己的一些帖子和搜狐社区所有的服务也都迁到了这个上面去。

 

最后就是像搜狐CMS,每天整个系统包括搜狐CTN承担几十亿每天PV的访问,对于这个存储系统来说,搜狐策略是每70秒,远端CDN失效会回原来取,大家想象一下相对于我们这套系统来说,实际上每天的LPS还有访问量是非常高的,这样一个情况下它达到非常高的可用标准。

 

最后包括现在搜狐的免费邮箱,今后搜狐一系列的互联网的应用服务,也已经是开始把这样一些相当于搜狐基本上所有互联网用户,我们内部数据存储都开始往云存储上做一个迁移。通过云存储的使用给搜狐包括我们内部的这些技术团队带来了非常大的好处。这样包括我们架构师和程序员做开发的时候,不太关注于我们应用程序到底把数据存在什么地方了。

 

搜狐我们把我们这个云存储的技术做完以后,其实我们内部也是做了一系列的对比,包括跟新浪的,包括跟百度的公司云存储的技术我们各位同仁也做了一些内部交流,在交流中发现实际上搜狐这块技术的积累本身是非常深的。然后搜狐又开始考虑我们怎么样进一步把我们这样一个云存储技术能够落地,除了服务搜狐现在互联网业务之外,怎么样把云存储这个技术积累,能够更快速更广阔的推广到互联网上去?

 

因此我们现在搜狐面向开发者,我们内部搜狐的PAAS云计算平台,已经开始内测了。预计是在2014年可能对公众提供这样一个PAAS的一个服务。在PAAS这个领域,除了搜狐之外,刚才说了包括阿里、新浪这之前已经有很深的积累,搜狐已经以云存储比较有特色的基础架构为核心,给开发者带来更好的服务。搜狐云存储面向企业这块,搜狐推出了自己的企业网盘,网盘这个概念现在已经非常火了,前两天金山云拿到两千万美元的投资,市场上开始做一个活动,一百G网盘免费赠送,360开始360G网盘免费赠送。我觉得在个人网盘云存储这个领域 ,我觉得有一个非常高估值,加上中国免费提供网盘的竞争这已经是红海了,搜狐这个领域里面是稍微有点落后,但是我们这个产品团队在网盘的市场上,从去年开始做研发,我觉得是有一点摸到了我们网盘一个细分市场这样一个机会,这是企业网盘的市场。

 

在企业网盘市场上,随着个人普通消费者对网盘的认可,一个使用度,把自己使用习惯带到企业领域带到日常办公领域,现在在企业网盘的市场上,在去年年底去年12月份的时候,开始有一大批小的个人网盘的厂商开始转型做企业网盘的服务。比较有代表的是逗快(音)。同时对于金山云来说,金山云在今年三月份左右,金山云推出了金山快盘的商业版,这是面向企业的服务。

 

搜狐企业网盘差不多同一个时间段做这个研发,搜狐企业网盘在今年年初开始在我们渠道市场做推广,搜狐企业网盘我们非常有信心,在企业网盘市场上我们希望能够占得自己我们认为正确的市场位置,来去为搜狐我们在云计算领域将来打造一个好的基础。

 

下面我会分别就我们搜狐Paas云计算平台以及我们搜狐网盘的情况做一个介绍。Paas云计算平台分为四个组件,分别是搜狐资源池的一个接口,以及我们为应用程序所推出的调度机制。我们针对传统互联网开发团队,我们提供丰富的运营工具,来去更好部署发布它的应用程序,我们争取达到零运维的概念。除了我们提供应用资源搜狐在整个Paas环境里面也集成了很多第三方服务,包括数据库包括分布式缓存,核心是搜狐的分布式云存储,所有这些都是组成了一整套的存储服务。我们通过提供可靠的存储服务,以及可靠的计算环境,我们希望我们能够为开发者,以更少成本可以在我们平台上开发永不中断的服务。

 

关于这个Paas平台,最近几年中国云计算市场上,大家更多说的是Saas和Raas对于Paas这块很少提及,开发者选择Paas有哪些优势。有五点。

 

1、首先极大节省你的运维成本。相对于传统软件开发,非常大不同一点就是有一个运维的成本才后面。甚至有些团队提出我要面向运维来设计。包括我们现在在软件组织里面也有人提出把开发人员和运维人员的身份统一起来,只有好的运维才可以保证你软件良好的把你服务提供给你最终用户。反映在我们现实生活中,在现实团队里面对于互联网一个成熟的应用产品来说,我们运维团队实际上占用一个开发团队,一个技术团队挺大一个部分。而且一个不成为的运维体系,可能把你辛辛苦苦开发的软件价值毁于一旦。Raas而给团队外包出硬件的工程师,网络工程师的这样一些角色,Paas最重要就是把你运维的工作给完全的外包出来了。

 

2、Paas平台第二个好处就是Paas极大的节省开发成本。我们在每一个互联网的项目里面除了我完成这些功能之外,开发工程师往往要花反复性的一遍一遍劳动去设计系统的一些架构,工程师的设计,系统怎么报警,怎么样监控,一台服务器宕了,另外一个服务怎么有效起来,能顶替原来服务器的工作。可能服务的损害并不是简单可以完成的,背后有硬件损害在里面,所有的这些在良好的一个Paas系统里面,实际上都是有相当好的设计,对于开发人员来说只要把自己的应用到我们这个平台上,像刚才说的监控、报警,弹性调度,高可用这一套都是由我们平台帮你自动的完成。

 

3、Paas方便移植。中国Paas分为两个阶段,第一个阶段世界上最大规模的Paas是谷歌的GNE这个平台,中国这个Paas先行者应该是新浪,新浪大概三年前就开始推广自己的新浪(英文)。新浪在第一代引擎里面在做应用隔离方面这一块,通常采用使用虚拟机取代应用隔离的。导致一个问题,我一个Paas平台支持多语言的开发非常难,谷歌推出的GNE很长一段时间里都是由这个(英文)的应用,新浪也是如此最近对多语言做这样一个支持。

 

现在其实Paas已经发展到第二代,在第二代Paas里面应用的程序移植已经到了一个可以说比较方便的一个成果。那么不管你的应用以前是用什么语言编写的,在我们Paas里面其实都能够比较方便在我们Paas里面运行。这一点可能跟目前市场上的一些领导者还是有所区别,这个是我们系统最大的特色之一。

 

4、Paas可以提供多种部署模式的选择。搜狐的Paas在开发的时候,最开始运营设计就有这样要求,我们Paas不仅仅局限于公有云实现的方案。我们希望搜狐的Paas可以在包括亚马逊的平台,包括企业内部私有云的平台里面也有可能有很好的运行。现在我们对我们Paas所提的目标就是当你应用被搜狐Paas做这样一个开发,将来它也能够同样有可能在私有云或者说在第三方这样一个公有云的平台上做一个部署,我们给开发者最大的灵活性,希望开发者可以从我们这种开放的这样一个竞争中获得一个最大的益处,并不是服务商绑定的关系。

 

最后就是使用搜狐Paas我们在后台刚才说到有多种丰富开发组件的选择,对于传统我们做系统架构来说我开发系统除了我要关注我业务流之外,同时我还要有多种后台业务选择,包括数据库,包括队列,包括缓存,而且这些组件的选择你还要考虑它的高可用,考虑伸缩性、建造性等等,我们这个团队实际上在后台已经为开发者预制很多种常见组件的选择,并且都是保证高可靠这样一个情况。搜狐企业网盘是我们在去年夏天的时候,在一年以前我们开始立项,在武汉研发中心开始做这个面向企业的这样一个网盘的产品。我们当时也是在我们有一个云存储的底层平台之后,我们开始利用云存储平台怎么对我们用户提供一个更好的服务。当时也是我们产品团队觉得个人存储个人网盘的市场不太值得我们投入了,即使做这个事情一是看不到有什么明显的汇报,二是觉得我们经验看起来也没法给用户带来最大的一个价值。因此我们就当时选了一条小众路线,为企业提供这样一个企业网盘。

 

在我们概念里面正如消费者的云存储一样,刚才我所提到的搜狐在存储选择过程当中,从Naas到云储量当中将来也会碰到,我们企业也会因为我要存储越来越多数据,我要有越来越多的应用,不管我的成本还是管理都是一个条件。搜狐做这个企业网盘我们对于企业包括在IT办公成本的支出,以及我们云端智能办公协同,包括企业最关心的这个方面,安全和审计这方面,还有我们移动办公,怎么样在移动设备上支持,我们都做了相当多的工作。我们感觉在未来随着包括Boxe厂商,我们对于分享的这个情况下,我们相信企业网盘在未来两三年在市场有可能成为市场下一个引爆点。

 

好的云存储的服务实际上离不开除了软件架构之外,也离不开好的网络建设。那么搜狐目前的网络服务的建设是这样一个情况。首先搜狐在北京上海,现在搜狐建了两个比较核心的一个服务区域。这个跟亚马逊的概念比较类似,我们每个区域都有IDC,北京上海每个点都是多运营商出口,包括网通、电信、移动这样的,这个也是为了应对中国比较复杂的网络特色的情况,来优化用户的网络速度。同时在我们多个IDC之间,北京有五六个IDC,这个之间我们达到最起码是万兆的互联,业务有需求的话,他们之间可以升级到更高等级的带宽,每个网络之间延时是0.01毫秒的级别,我们机器不在北京,不管在那个机房,大家之间连接都是非常高效连接的环境,我们通过这样一个建设保证搜狐的服务及时一个IDC出了问题,那么整个对外的服务不会有一个特别的明确,基本上我们还能保证对外的服务。

 

搜狐现在在广州、济南、成都这样城市也储备自己的机房资源和带宽资源。这些核心机房的资源是将来公司在云计算这块非常重要的一块资产。现在搜狐正在各地做这样机房的储备。

 

刚才提到了搜狐Paas平台,除了支持搜狐内部的IOS之外,我们IOS可以支持在亚马逊的平台之上,将来如果说我们客户或者我们自己业务有这样服务的需求的话,我们有可能可以租用国外的运营商的情况,然后能够对我们客户的这样一个海外的网络或者说一个需求,能够尽快的去响应。

 

现在搜狐北京研发中心,除了像刚才说到我们开发了三个分别面向不同领域的分布式文件系统,一个小文件,大文件以及结构化数据之外,我们现在北京研发中心还在如下这两个领域正在开始做进一步技术的积累。分别是一个分布式块设备,和离线类存储服务。云存储更多以API形式提供给开发者,这块对于新项目比较适用,我新项目使用新的API来做OK。怎么让老项目更好使用云存储服务,通过我们分布式块设备,可以挂载到我们主机上,希望利用这个技术更快迁移到我们云存储平台上。

 

第二是离线存储服务,刚才所上的分布式的云存储服务不管是大文件还是小文件,保证这个可靠性和可拓展性的基础上,都是通过三个拷贝模式,我一个数据拷贝三份保证存储性和可靠性。现在北京研发中心计划针对于这个用更少存储,可靠性稍微降低一点能够提供这样一个服务等级的服务。我们这一块希望就是说可能将来利用离线类存储服务,可能能以更加低廉的成本为企业提供服务,像归档和备份这样一个存储服务。

 

最后我们来提一下云存储关于数据的安全。其实对于企业来说包括个人来说当你把你一些数据开始存储到云端之后,可能不可避免考虑到安全问题,我数据怎么样尽可能不被没有受到授权人访问,我这里用亚马逊S3的一个例子讲搜狐这块怎么做的。我们认为安全这块这个概念比较大,我们这个团队其实更多还是关注在加密这一块,在加密这一块分为三块,基础加密、应用加密、终端设备加密,核心思想很简单就是我们对于每次存取都会分配独立一个T专门做相应的数据的存取,我们通过把K的管理和存储管理分离,通过这种机制来去达到这样一个安全的能力。

 

当然我把这个应用分为三个,基础设施、应用和终端设备,每个出了问题都会对用户造成非常大影响。搜狐在云存储这块加密,可能未来在终端设备加密是最终的解决方案,对用户来说是最安全的保证。今天我的内容就到这里,谢谢大家!

 

 

文章来源:中国邮箱网

标签:邱英波搜狐邮箱

我的评论:

请  后发表评论。