自研服务器芯片,阿里云要做什么

自研服务器芯片,阿里云要做什么-创新湾

本文来自微信公众号:财经十一人(ID:微信号: caijingEleven),作者吴俊宇、陈伊凡,编辑:谢丽容,题图:网络 。

自2018年阿里成立平头哥半导体,阿里云的自研芯片取得了最新进展。 

10月19日,阿里云发布了最新通用服务器芯片倚天710,以及自研服务器磐久。倚天710采用5纳米工艺,基于ARM最新发布的ARMv9架构。搭载芯片倚天710的磐久服务器将在今年部署,均为阿里云自用,无对外销售计划。

这是阿里造芯计划里,截至目前攻克下的最艰难的一役。

《财经》记者了解到,倚天710项目立项于2019年。平头哥承担了芯片设计工作,台积电是生产代工厂商。

2018年4月,阿里收购了中天微系统有限公司,与达摩院自研芯片业务整合成为独立芯片公司平头哥。2019年7月,平头哥发布了RISC-V处理器玄铁910,当年推出云端AI推理芯片含光800。此后两年,平头哥并无新款芯片发布。

此役并不好打。阿里云智能总裁、达摩院院长张建锋在接受《财经》等媒体采访时称,今年7月,倚天710进行了首次流片。初期测试相关指标超预期,但还需进一步测试、验证,才可量产使用。

自研服务器芯片,阿里云要做什么-创新湾

阿里云自研服务器芯片,结合了诸多长中短期内外形势考虑。

其一,主流服务器厂商均采用了x86架构芯片,x86芯片在阿里云的数据中心也是主流,自研ARM架构芯片,和亚马逊类似,有长期的战略考量;

其二,倚天710服务器芯片从立项、流片过程到未来量产,阿里云要解决的问题不少,这也是接下来的重点,比如,解决和其他相关厂商的长期关系,走向共赢;

其三,自研服务器芯片与阿里云后续发展潜力有莫大关系,阿里云从软件向下自研硬件的过程中的边界问题值得注意;

针对上述问题,10月19日,张建锋及平头哥管理层对相关话题和包括《财经》记者在内的部分媒体进行了深度探讨。

为什么是ARM?

目前服务器芯片架构领域,x86、ARM、RISC-V是几个可选项。

其中x86架构是英特尔公司的领地,也是目前服务器芯片架构的主流。全球几乎90%以上的服务器芯片架构为x86架构。x86服务器芯片架构设计、生产制造均由英特尔完成。下游制造厂商购买芯片,组装服务器,再销售给其他IT厂商,供数据中心、大型IT项目使用。

ARM架构知识产权属于ARM公司,事实上,ARM架构此前普遍应用在手机通用芯片领域,在服务器领域,ARM是新兵。但结合其技术特性和成熟度,ARM架构在一些互联网巨头公司颇受欢迎,来基于ARM架构来研发新的服务器芯片框架。在阿里之前,亚马逊等云厂商在近些年做了尝试。ARM架构的服务器芯片需要厂商购买ARM v8、v9架构授权,寻找台积电等半导体代工厂商进行制造,最终运用在自身业务中。

RISC-V是开源架构,相比于x86和ARM的闭源指令集架构,既不需要支付版权费用,也可以自行修改使用。RISC-V受到了大量国内本土的高校、研究机构、创业企业的欢迎,但短板在于更适合中低功耗市场,无法承担大规模运算需求,且软件生态不够完善。

英特尔x86架构在服务器芯片市场统治力很强。

2021年9月10日,IDC发布的《全球服务器季度跟踪报告》显示,x86服务器产生的收入在2021年第二季度增长2.2%,达到214亿美元。非x86服务器收入同比下降4.5%,达到约23亿美元。也就是说,x86服务器收入占全球服务器收入的90.3%,非x86(包括ARM、RISC-V等)服务器收入仅占全球服务器收入的9.7%。

自研服务器芯片,阿里云要做什么-创新湾

也就是说,ARM、RISC-V等服务器芯片只占据了不足10%的市场份额。

x86架构服务器芯片的生态也更完善。全球首款x86架构的服务器芯片诞生于1989年,距今已有30多年的历史。

目前,国内外主流服务器厂商均采用了x86架构芯片,x86服务器下游硬件制造商包括惠普、戴尔、浪潮、联想等。这四大厂商生产的X86服务器占全球服务器总份额47.7%。在传统IT领域,大部分应用软件也都都基于x86架构开发。绝大部分数据中心的服务器均采用了基于x86架构的芯片。此外,x86服务器芯片的特点在于单核性能强、兼容性好,安全计算能力高。

技术和市场的成熟造就了x86今天的绝对优势。不过,x86服务器芯片诞生于传统IT阶段,并非完全根据云上负载设计。因此,在云计算场景下,不能满足一些专业场景的专业需求。 

这就为ARM架构芯片提供了时代机会。不过ARM在服务器领域目前仍处于起步阶段,份额低,软件生态也不完善,但基于ARM架构的服务器芯片通常具有体积小、能效比强,发热量低,且价格相对低廉的特点。数据中心是能耗、占地大户,搭载ARM架构芯片的服务器可以缓解上述问题。

尝试使用基于ARM架构的服务器芯片,最早的是亚马逊。其AWS Graviton处理器发布于2018年11月,使用的芯片指令集是ARM v8,定位为“云原生芯片”,对云端基础架构进行了针对性优化。

阿里云选择ARM,和亚马逊有相似的判断,但具体原因有所不同。

阿里云推出倚天710服务器芯片,其核心目的在于适配阿里云自身业务大规模、多线程、高并发的特点。倚天710芯片内含128核CPU,主频最高达到3.2GHz。有平头哥技术人士向《财经》记者表示,多核心处理器在应对上述业务时,适应性更强。

此外,倚天710还对阿里云业务进行了针对性设计。为解决云计算高并发条件下的带宽瓶颈,针对片上互联进行了特殊优化,还试图通过新的流控算法,缓解系统拥塞,提升系统效率和扩展性。

平头哥技术战略副总裁高慧在接受《财经》记者采访时则称,云计算需要降低计算成本。基于ARM架构的处理器通常核心更多、能耗更低。理论上说,在实现量产的前提下,基于ARM架构的服务器芯片和x86芯片相比,制造成本、运营成本都会更低。

挑战何在?

理论更多基于理想状态。在现实层面,倚天710不仅过去解决了大量障碍,未来也还有更多挑战。张建锋称,倚天710其工程难度主要集中在四个方面。

第一,5nm工艺要求极高的设计能力。工艺和设计需相互匹配,有大量工程问题需要解决,对阿里是一个很大的技术挑战。

第二,需要做出技术判断。此前尚无厂商使用5纳米作为服务器芯片工艺。采用先进的架构、制程,需要做更多技术验证,承担更大技术风险。

第三,此类技术项目考验大型工程管理能力,这对阿里云内部组织能力有挑战。

其四,流片之后的交付还需要克服大量问题。

从技术判断看,3纳米工艺目前量产存在难度,5纳米可以兼顾阿里云当下和未来需求。5纳米是目前技术和量产平衡下的最佳产物。也有芯片创业公司负责人称,倚天710选择了技术难度高的技术方案,无论是5纳米工艺制程,还是ARM v9架构,此前都未有服务器企业同时使用,其技术成熟度、可靠性要经过时间检验。

人才是决定芯片研发能否成功的关键。平头哥技术战略副总裁战略高慧对《财经》记者表示,倚天710团队设计经验丰富,很多核心成员拥有20多年的研发经验。

在落地过程中,成本也是企业决策的考量因素。张建锋称,倚天710自研过程中未过多计算成本,但倚天710成本分成四部分,ARM公版架构授权费用、研发工具投入、流片费用以及人工成本。以流片费用为例,通常一次流片需要数千万美金。 

阿里财报显示,阿里云近两个季度,利润刚过3亿元。也就是说,倚天710的流片成本可能与阿里云单季利润相当。

后期交付则是未来的最大挑战。

芯片产业链条包括设计、验证、制造和封装等环节。实现自主设计后,量产是另一个难题。中国大陆半导体代工厂中,除了中芯国际可量产14纳米工艺的芯片外,其余半导体代工厂可量产工艺皆在28纳米及以上。

目前全球范围内,具备5纳米工艺生产能力的半导体代工厂仅有台积电和三星。倚天710的生产制造有赖于台积电。张建锋在接受《财经》记者采访时表示,阿里云正在根据当前产能情况进行下一步计划。

目前5纳米制程芯片是台积电正在快速增长的新业务,尚处在产能爬坡阶段。台积电三季度财报显示,其先进制程(5纳米和7纳米)收入占比合计为52%。其中7纳米工艺技术占据了晶圆总收入的34%,5纳米以18%的数据紧随其后。成熟制程方面,16纳米和28纳米收入占营收比例分别为13%和10%。

自研服务器芯片,阿里云要做什么-创新湾

调研机构Counterpoint今年2月曾预估,苹果是台积电今年最大的5纳米客户,占其总产量的53%。此前台积电曾公开称,5纳米系列2021年产能扩充会比2020年翻倍,2022年将比2020年增长3.5倍以上。

不过,有数字化领域的资深技术人士对《财经》记者表示,在全球缺芯潮大背景下,倚天710能否大规模量产有待观察,其软件生态适配也对阿里云提出了挑战。

今年4月,一位数字化企业高管接受《财经》记者采访时称,传统数字化企业的做法是从下往上打(底层硬件技术到上层产品服务),发挥“硬件+芯片”优势。阿里云策略是从上往下打(上层应用服务到底层产品技术)。阿里的长板是智能,尤其是经过真实业务训练的算法模型。但阿里云在补足短板,强化“硬件+芯片+数据库”等领域的布局。

目前,阿里数据中心内服务器的主要供应商是浪潮。阿里云还同时采用了英特尔、英伟达、AMD的芯片产品。阿里云向下涉足硬件的过程中,业务触角在变长、变深,这也带来了另一个问题:阿里云的边界是什么,是否会对合作伙伴造成威胁?

高慧对《财经》记者表示,倚天710并非要替代市场上同类产品,主要还是为了解决云计算专业场景下的专业需求,为云上企业提供多样性选择。

张建锋在接受《财经》等媒体采访时则称,阿里云业务有明确边界,只承担硬件设计工作,目的在于让云计算的底层硬件更符合自身业务需求。芯片、服务器等硬件的生产,均会交给制造厂商。在阿里云还将继续与英特尔、英伟达、AMD、ARM等合作伙伴保持密切合作,为客户提供更多选择。

不得不做,也必须做

即便后续挑战诸多,但自研服务器芯片对于阿里云来说,不得不做,也必须做。涉足服务器自研芯片,更是阿里云“一云多芯”策略,以及“做深基础”既定战略的延伸与落地。

随着上云成为了企业数字化转型的必选项,不同企业的计算需求也正在变得多样化。一些云计算客户既想要英伟达、ARM芯片的AI推理能力,也想要x86芯片的安全计算能力,还希望云成本能进一步降低。

在过去,同时满足这些需求,通常要选择多云协同,为ARM集群、x86集群分别建设存储与网络的配套设备。但这种做法成本高,且浪费资源,不同类型CPU共存还会带来多云管理问题。

阿里云应对这些问题的策略是“一云多芯”,也就是用一套云操作系统兼容x86、ARM、RISC-V的硬件服务器集群,将不同架构CPU的算力标准化,向下屏蔽硬件差异性,向上提供一致性服务。在企业客户侧,则是可以同时使用x86、ARM、RISC-V系列服务器的算力。

倚天710是阿里云推进“一云多芯”策略的重要一步。张建锋称,正如云上用户不需关心服务器运维,他们也不再需要关心芯片。这是基于云的新型计算体系的一个重要特点,背后逻辑正是要强调基于云的特点来构建整套硬件的技术体系。

今年5月,在阿里云北京生态峰会上,阿里云强调了“做深基础、做厚中台、做强生态、做好服务”既定战略。 

“做深基础”,其内涵是,做深云的底座。以飞天操作系统向下延伸,触及芯片、数据库、路由器、交换机等硬件,基于云的特点构建数字经济基础设施。这也符合阿里云的定位:不只是云计算公司,而是数字经济基础设施提供者。

张建锋在接受《财经》记者采访时称,在“做深基础”方面,目前阿里云的软件部分、软硬件部分在国内均处于第一梯队。与全球的一些主要竞争对手相比,也没有代差。

过去阿里云针对云厂商逐渐对数据库等硬件进行了针对性优化,自研服务器芯片倚天710意味着云对硬件的定义走到了芯片这个最核心部件。

目前,阿里云正在迎来更复杂的竞争环境。

阿里云2021年上半年营收为328.12亿元,经调整EBITA利润为6.48亿元。阿里云已连续三个财季盈利,成立11年亏损局面有了实质性的转变,前期战略投入形成的规模效益正在逐步释放。

市场调研机构IDC数据显示,2021 年第一季度中国云基础设施IaaS+PaaS市场增长49%,达到46.32亿美元,阿里云依旧保持首位,市场份额为40%,超其他厂商。

2021年,阿里云在大盘上依旧具备优势,但面临的挑战不减。

首先是外部环境的变化。公有云竞争在进一步加剧,政企市场政策监管让行业门槛变高,教育领域的多轮监管打破了云厂商对教育企业上云的预期。诸多变化下,阿里云业绩持续增长的压力在变大。此外,政企市场作为主要数字化企业的重要增长点,对阿里云提出了更高的服务要求。

《财经》记者了解到,阿里云过往行业客户服务团队集中在北京、杭州,而目前正在改变这一做法,强化在地化服务的能力。

在“做强生态”层面,阿里云还在进一步打通上下游产业链,覆盖咨询规划、落地实施、后期运营的数字化周期。

在“做厚中台”层面,钉钉正沿着“中间平台”,下连云计算基础设施、上连企业关键应用的方向前进。它扮演了协同办公平台、应用开发平台的双重角色,覆盖企业的组织数字化、业务数字化需求。

对阿里云而言,做深基础、做厚中台、做强生态、做好服务的既定战略仍在进一步落地。推进芯片业务、完善软硬件生态,是应对市场变化,保持战略韧性的重要举措之一。

本内容为作者独立观点,不代表创新湾立场。如有异议,请联系创新湾。创新湾聚焦新科技、新产业,相关内容欢迎投稿。(投稿或转载请联系创新湾小编微信:LinkedBay)

自研服务器芯片,阿里云要做什么-创新湾

自研服务器芯片,阿里云要做什么-创新湾

发现中国科技创新的力量

创新湾ID:EnnoBay

您的浏览器不支持 HTML5 canvas 标签。 下载图片