阿里巴巴基础设施挑战与芯片策略

  • 时间:
  • 浏览:0
  • 来源:UU直播快三_UU直播快3平台

接下来,简单讲一下阿里巴巴在那先 领域里做了那先 工作。

今天讲一下从节点到集群的工作,中间是今天发布的自研50G DR4硅光模块,硅光模块到今天为止还没办法 发布50G的。硅光模块有非常大的优点,比如把比较大的光器件做成硅光芯片,却说就能让硅光芯片象集成电路一样,还都能不能快速地设计否则制造,体积更加小否则成本在大规模生产之与否降低,但挑战非常大,包括技术和阳态链条上的挑战。可能做光芯片的,肯定会非常知道这中间的艰辛,但阿里巴巴做了否则做成了。亲们今天发布刚刚,大规模使用可能会在明年的下五天。

刚才讲到了存储、计算、连接,还有有一一2个多有点硬却说数据中心,阿里巴巴在数据中心总爱做了什么都探索,前两年在千岛湖里做了有一一2个多从湖底抽水制冷的数据中心,它的好处是比较环保和节约成本。亲们在张北也做了新风自然冷,也是非常环保和节约成本的,但张北还做不到36五天,可还都能不能则与空气质量有关系,否则差太多有50天以上是自然风冷性能。

最后,回到今天的主题,阿里巴巴基础设施和芯片策略,芯片非常重要的,没办法 芯片的硬核计算能力,实际上太难有没办法 有一一2个多未来。

同样,今天血块的数据在计算时时需搬运,搬运数据的刚刚与否遇到时延等什么的问题,也要考虑到搬运数据的过程与否在意延时。

同样,亲们在服务器领域里也做了从部件到整机服务器架构优化的设计,这是新一代的云服务器玄武,它嘴笨 也是有一一2个多模块化设计,却说在服务器硬件层面是模块化的,还都能不能自由地组合、组装,通过不同的组装刚刚还都能不能满足不同需求,比如不同规格的计算或存储服务器,从硬件层面都比较方便。

基本上亲们的网络却说自动上线、自动变更,遇到故障时基本上实现的是3分钟恢复,却说1分钟发现故障、1分钟定位、1分钟恢复,这在传统网络设备里还是非常大的挑战,但正是可能亲们今天做了那先 工作,才有了却说的有一一2个多结果。

另外,资源永远是时需的刚刚就要有,最好从不告诉客户说服务器没办法 了、资源没办法 了、数据中心没办法 了等等,你這個 嘴笨 也太难做到。

应用中还遇到你這個什么的问题,比如今天的互联网公司希望做有一一2个多5万台规模的服务器集群,可能它可扩展、利用率高,为宜还都能不能提供什么都资源。

却说一段话,就还都能不能从刚刚的两有一一2个多月,快一点 缩短到几天的时间,嘴笨 现实中甚至不到一天或半天就玩转信用卡 。

今天亲们团队提供的不仅仅是技术,还提供的是生产7×24小时服务,意思是说不仅仅是提供设备,却说仅仅是提供技术這個,却说要提供用于生产的服务。这刚刚就要管控了,亲们做了有一一2个多数据中心大脑,干了那先 事情呢?首先,是对服务器、网络、机电设备等进行很好的管控,从交付到业务处理,一旦有了故障还都能不能快速恢复,从最开始英语 英语 人工到数据化,从数据化到自动化,从自动化到智能化。其次,是数据中心日常运维现场人员的管理,IT人员、电力设备人员、空调制冷人员等,为何进行日常工作、做那先 工作,这刚刚让数据中心大脑提供决策辅助,提供最优决策。举个供应链例子,通过智能算法做好精确的预测,让整个交付准确率很高。

像今天做存储,可能是分布式存储,很明显时需集群网络的性能,这刚刚网络延时与否点硬要了,亲们都知道TCP/IP协议不太适合低延时,那就要考虑到底是要利用现有的低延时网络协议如InfiniBand、RDMA,或是今天自研有一一2个多低延时的网络协议,包括拥塞控制的算法,那先 与否非常有技术含量的。

阿里巴巴集团副总裁周明负责阿里巴巴集团、蚂蚁金服集团,包括阿里云在内的基础设施、基础技术的研发、规划、建设、运营等。周明在2019杭州云栖大会上,深入介绍了阿里巴巴基础设施的挑战以及芯片策略,以下是周明的分享内容文字派发,经编辑。

网络人员会说,数据中心假如有一天并能承载没办法 大规模的服务器,网络都还都能不能玩转信用卡 ;而数据中心人员会说,假如有一天网络能玩转信用卡 ,其它都没办法 什么的问题。

总结下来看,计算能力线性的增加是有技术含量的,你這個 技术含量是时需各个专业角度配合,否则这是有业务价值的,体现在有一一2个多方面:一方面,刚刚时需花很长时间,今天还都能不能很短的时间玩转信用卡 ,让业务快速迭代,尤其互联网快速迭代业务、快速试错非常重要;我本人面,刚刚做不到的事情现在还都能不能做到了,比如Google发布了有一一2个多模型,什么都却说根本就没办法 算,但对亲们来说却说否什么的问题。核心却说你這個,计算能力线性增长是有技术含量的,也是有业务用途的。

讲一下连接,连接嘴笨 贯穿了整个数据中心。从芯片来讲,服务器总线协议、机柜级连接、集群连接等,都时需做非常多的工作。

这里嘴笨 有非常多的技术考虑,包括怎么通过算法做好预测等,包括运维管控中总爱出现的故障、为何处理用户的期望等。

再往上是DCI通讯,再往上讲一下网络集群,嘴笨 是用自研的交换机和OS来组成新的HAIL 2.0集群架构,你這個 集群架构选择选择离开了以往的商用交换机架构。

首先,亲们服务器从5万到50万(百万级),当然今天还没办法 哪家公司有50万规模的服务器,千万级规模遇到的挑战肯定是不一样的。当在线生产服务器到达5万的刚刚,一定要考虑在百万级的刚刚应该遇到那先 样的挑战;同样,当到达百万级的刚刚,就要考虑千万级将遇到那先 样的挑战,技术挑战和运营挑战与否那先 ,那先 与否时需值得亲们思考的。

再讲一下存储,去年亲们发布了AliFlash V3版本,自研的SSD也支持了Open Channel的SSD,今年可能大规模用上了。支持Open Channel SSD的好处是通过本地的存储软件,还都能不能直接对SSD进行更加底层的操作,性能更好。同样,AliFlash V5.0也在研发中,会做你這個净数据的存储和计算。

亲们有遍布全球的数据中心,与否百万级规模的在线的生产服务器,是全球前五大的服务器规模。没办法 大的规模一定就会给带来非常多的挑战,挑战有技术的、与否非技术的,接下来简单讲一下面临的挑战以及做了那先 方面的工作。

亲们却说有过经历,服务器可能要两有一一2个多月并能到货,可能用量大,与否几百台、几千台。现在基本上从开始英语 英语 下单到最后还都能不能用,10个工作日就还都能不能全版玩转信用卡 了,这是亲们认为比较经济的时间。

但真正要做的刚刚,遇到的什么的问题就非常多了。比如从数据中心来讲,最容易想到的是供电,时需考虑每有一一2个多机柜2个千瓦最合理(结合应用)。同样,对网络来说,网络设备成本可能占到50%以上,这刚刚就要考虑到底是全版用相对比较昂贵的长距模块(最简单的),还是通过部署让网络设备更加合理,用的模块距离更短你這個、成本更低,整个TCO更有竞争力、每个端口的成本最合理,那先 与否时需考虑的。

回到算力什么的问题,架构会带来非常大的改变,会带来E级计算能力,事实上亲们也通过各个团队的努力做了512片的训练集群。亲们在数据中心领域,在低延时网络、计算、存储、编译器、AI算法等努力下,你這個 集群取得了很大的效果。

首先,阿里巴巴基础设施的现况。阿里巴巴今天可能不仅仅是服务于电商以及蚂蚁金服的金融业务,可能有了阿里云智能也却说把技术作为业务的商业模式,什么都亲们服务了各行各业,服务企业有上百万家,囊括了互联网、电子政务以及金融等行业和企业。

最后讲一下,所有你這個 切与否在客户需求的价值驱动下做的。时需回到亲们做的事情到底对客户的价值是那先 ,处理客户的痛点到底是那先 ,否则一切与否技术自嗨。(文/宁川)

可能今天数据量没办法 大,数据处理也没办法 繁复,芯片功耗也太多,亲们都面临着功耗挑战,这刚刚就要求单机柜的功率密度,甚至否则要求高功率密度的机柜,什么都亲们研发了浸没式液冷的数据中心,今天可能在张北部署了世界上最大规模的浸没式液冷数据中心,亲们即将部署在杭州的差太多有两三万台规模的浸没式液冷数据中心。不仅仅是功耗什么的问题,亲们也在考虑怎么并能把浸没式液冷作为普世性的数据中心。

我从基础架构的规划建设和运营者的角度,谈一下基础设施所面临的挑战,以及从基础设施角度看怎么发挥整体的芯片算力及其策略。

亲们都知道,今天云的客户最希望不管基础设施,只管做好业务就还都能不能了。不管是那先 概念呢?却一段话你這個 设备永远从不换,潜台词却说永远从不总爱出现有一一2个多故障,最好让客户不知道,但很明显是不太可能的。

从技术上简单讲一下,亲们一定要考虑技术竞争力。首先技术要有先进性,另外还有考虑TCO的成本,可能不考虑成本什么的问题一段话,肯定可能大规模应用。没办法 大规模应用一段话,就认为是技术的自嗨,什么都在这里考虑的事情就比较多了,比如考虑大规模的在线管控,肯定可能人工管理而要角度的自动化,这就可能带来很大的风险,有一一2个多bug或故障很可能就会被放大,到底要为何做,亲们可能什么都刚刚就会忽略供应链。

同样,回到今天一段话题“算力”,亲们与否讲摩尔定律遇到的挑战,计算力是未来。我作为有一一2个多基础设施的技术研发、规划工作者,认为计算力绝对不仅仅是计算力,它涉及到计算、存储、互联,涉及到数据中心怎么进行有效地结合。

今天阿里巴巴作为互联网企业,更多体现在整个集群上要考虑的事情,与否点硬多了。比如亲们今天与否做异构计算GPU、NPU,那先 算力怎么与CPU进行搭配是最合理的?

否则要把芯片能力完美地发挥出来,时需各个专业能力包括架构能力等。一块儿,阿里巴巴却说是所有事情都我本人做,亲们也坚信不管从应用到系统还是部件到芯片,也要有合作伙伴一块儿来发挥各个专业能力,从而获得整个系统最优的架构。

首先,算力方面,平头哥提供了NPU芯片。同样,作为有一一2个多互联网公司,大多数刚刚在基础设施里还是会使用合作伙伴的技术,可能重点在于整体架构、整个系统设计,怎么获取最高的能力。什么都,亲们也会定制化,包括FPGA。今天阿里巴巴在搜索业务上,刚刚的搜索用的是GPU,而GPU相对比较昂贵,亲们在搜索业务用FPGA进行卸载,嘴笨 非常不错,但唯一你這個却说可能总爱会有算法的改变。亲们都知道,算法一旦变,做个FPGA、RTL,尽管比ASIC要快,也得花两有一一2个多月的时间。这刚刚亲们做了有一一2个多编译器层,包括专有的指令集,把你這個基本算子先写好,当算法有变化时通过编译器就还都能不能快速地应用新算法。

举个例子,比如刚刚做的拍立淘,刚刚做一项训练可能时需花两周,而用你這個 集群可能几十分钟就能玩转信用卡 了。同样,刚刚亲们做不到50万的分类,今天用你這個 集群就做到了没办法 大规模的分类。

商用交换机核心是机架式核心交换机,亲们全版是自研的交换机,自研NOS的好处是规模还都能不能做到很大,还都能不能做到5万台规模以上的集群,同样扩展能力也非常高,却说扩展非常方便。再者比较智能,还都能不能像服务器一样来管理交换机,什么都还都能不能自动化的上线。

站在亲们的角度就要考虑没办法 多的挑战。

今天阿里巴巴在全中国的一年新增服务器,占到全中国增加服务器10%以上的刚刚,还都能不能想一下一年增加几十万台服务器是那先 概念,可能几天之内就要有2个万台的部署(高峰期刚刚),供应链就会带来挑战。

同样,亲们也做了边缘云服务器,主要目的是为了快速交付否则快速上云。