开云体育

开云体育官方DeepSeek成本收益影响算力大厂专家交流

2025-03-12
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育官方DeepSeek成本收益影响算力大厂专家交流

  A:在推算成本时,其集群一部分支撑B端业务,B端业务体量相对不大,C端日活超3000万。对于其存量芯片,loading非常高,GPU利用率比普通大厂(如阿里、字节等)都要高,日常白天GPU利用率基本上90%甚至更高,晚上可能低一点。若把C端loading和B端拉齐计算,这种算法不太合理,因为市面上大部分按此算会亏损。另外,其在集群优化中采用了新技术,如EP技术,在GPU的延迟、吞吐上有帮助;采用KV缓存技术,因为是FP8和FP16混合精度,KV命中率56.3%,高于普通厂家,一般是低于30%;在通信机制上也有优化,整体性能较高,但也不至于有很多倍的差距。市面上其他家把DS部署后用官方价格做不到该利润,原因是没有完全实现DS低成本机制,在运行策略、通信优化、负载均衡、资源调度缓存机制等方面都不如它。

  Q:这次的技术有没有开源,大家短期能学到吗?阿里云、腾讯云等大厂与该技术的差距有多大?

  A:所有公有云在过去两三周前已部署相关内容,定价小于等于官方价格甚至5折。DS上周公布了FlashAttention、DeepEP等五个技术,有些技术点有参考价值,且部分已做成代码甚至有库可使用。本身在用英伟达芯片(如H100、H800、H200等)的玩家一定程度上能复刻,但至少未来一个月内不太可能马上把性能提到很高水平。大厂会研究,将这些技术用到NVIDIA系列机架可提升性能,但复刻到国产芯片(如昇腾等)更难,因为是不同生态。未来1-2个月,大厂依托开发这几个技术点可部分复刻接近其状态,但无法超越。目前大厂处于微亏或微利状态,后续把这些技术用起来后,盈利能往上提一点。例如阿里之前模型卖60块/100万token,现在跌到16块,利润率被挤压。大厂有意愿、能力和方法借鉴先进技术提升模型性能和降低成本,一般厂做不到。

  Q:2000张卡是否服务了所有用户,2000张卡服务的收入和成本数据是否包含所有推理?

  A:2000张卡不可能服务这么多客户,2000张卡服务的收入和成本数据不是包含所有推理的。

  Q:3000万日活对应的实际满足日活、缺口日活是多少,缺口日活对应的卡需求是多少,如何解决缺口问题?

  A:现在存量的芯片,只能马马虎虎支撑1000万的日活,如果没有2.5万张H800流畅度会很卡,特别是很多用户喜欢用联网和R1,本身token数量比通用推理模型大三倍,R1每次回答基本2400、2500个字,传统是800个。缺口日活为2000-2500万,到3月下旬时用户将近3500万左右。2500万用户背后大致需要5-6万张H20或对等的卡才能支撑。接下来要从阿里云和华为那边扩容,两边加在一起大概可以分摊2000万的日活,到三月下旬或者四月份使用相对会流畅一点。如果未来两三个月不解决问题,用户体验会变差,留存率会下降。

  Q:他公布每天8亿n,字节每天6万亿token,同样两三千万日活,该如何理解这种差异?

  A:他单次的token比字节多很多,基本上是2500-4500个字,是字节的三倍左右。他公布的数字指的是命中的那些数字,不包括那些还没读到的数字。他现在大致满足1000万日活,按照每天每个用户访问十次,单次2.4K(2000多字),总token肯定不是公布的这个数字。

  A:新的推理模型输入包含几块内容。一是推理阶段的token都算输入,比如问问题时R1思考的几百上千字;二是系统级的隐藏内容,包括系统的安全提示词、安全指令、格式化标记等隐私消耗;三是跟AI对话时关联的上下文都要作为下一轮对话输入。这三块加在一起使得输入数据比较大,形成推理输入端数字跟输出端3比1的关系,而不是以前1比2或1比4的关系。

  Q:过去字节、通义千问以前的模型输入输出比例一般是多少,现在比例有何变化?

  A:过去的模式基本上输入输出比例是1比2、1比3左右,通义千问以前是1比3,现在输入占大,输出占少。

  Q:如果目前这个团队未来去做ASIC大概是什么水平?跟芯片设计公司合作做出芯片的能力有何预期?与阿里平头哥等做ASIC芯片的水平相比如何?

  A:该团队强项在于对底层芯片的调度、通信及技术调度能力。单凭自身做不出芯片,它偏软,若加上硬件设计强的公司,从应用角度反向指导芯片设计,能规避一些设计点,双方联合起来做会比较强于。

  Q:ASIC目前的infra团队与阿里云、腾讯云、火山引擎的infra团队能力差距如何?业内有无比较指标?

  A:大厂的Alinfra团队基本上至少300人,要负责规划网络、优化、新硬件适配调试及日常运营等,很吃人力。而DS人工精简,团队总共160人,Alinfra大概三四十个人,与大厂人数比约为1比10这样。但该团队每个人可能都是高手,能精准把握机器关键技术点,优化体系不输给大厂,甚至比大厂还好很多。

  Q:按照目前开源进度,互联网大厂跟进需要多久?阿里云、腾讯云等公司有无要求Alinfra团队做出什么样的效果?

  A:在未开源之前,一月下旬二月上旬大厂就已组织攻坚团队,原计划一期三个月(2-4月),现在一个月过去又加了三个星期,四月份大厂第一梯队会慢慢接近DS开放出来的东西,有好的东西浮现并用到自己集群里。真正投入使用可能要到第二季度后半期五月,因为优化后要不断测试再上线。阿里云会第一个做出来,字节可能第二,腾讯可能较靠后,头部的Maas大厂都要做这个维度的优化,第一梯队会在未来2-3个月把这些东西复刻出来。

  Q:假设H800的租金是2美元/小时,这个估值正常吗?算成本按H8002美元/小时是否偏低?

  A:这个价格偏低,市场上不止这个价格。像A100芯片每月租金14万多,每小时快30块钱,国内没有哪一家能提供十四五块钱租金的。两美金远远低于行业平均水平。

  A:A100约36块多人民币1个小时,即5块多美金;H100在6-7美金,H800国内在5-6美金之间,约四十几块快50块1个小时;H20还没有大规模拿出来租过,也没对外报过价,肯定至少在4-5美金之间。

  A:每家折算成本的比例不一样,比如折算年限是三年、五年再折算成小时,但主要应按行业的平均出租价格来算才更合理。

  Q:目前海外GPT事件发展迅猛,与阿里产品的差距是否显著被追上,内部如何看待GPT-4.5?

  A:GPT-4.5刚出来,亮点一是能在对话中迅速捕捉情绪,回复话术高情商,文字和声音听起来较舒服;二是整合了O系列,将深度推理模型与GPT架构融合,推理性能比老版本提升很多,但价格贵,预训练算力比之前提升十倍,是最后一个非思维链模型,架构是以前transformer架构。从性价比看,它走拼算力、拼数据、探索上限的路,成为新一代多模态模型,未来奔着多模态融合发展。它给AI发展指明方向,即把人性化AI作为新一代AI的特征去发展。未来AI回复会更nice、情商更高,下一代GPT会把深度推理模型融合进去,将03系列集成到一个模型里,通过输入信息判断用通用推理还是深度推理来执行思维链。OpenAI接下来发展方向是模型加上新应用,会基于模型做场景探索和扩展,让模型更有价值。

  Q:DeepSeek的B端和C端token量的比值是多少,B端和C端输入输出token的占比情况如何?

  A:DeepSeek的B端和C端token量比值大概是3(B端)比7(C端),C端是绝对主力。C端输入输出占比大概是3比1,B端输入输出占比大于3比1,因为B端会添加很多文件上传和prompt提示词等,输入端占比更大。

  A:H800理论峰值是每秒4000多个token,英伟达提供的数字在2000到3000之间,阿里达不到4000这个数字。

  A:超并发数是指C端和B端业务混在一起有高并发,整个H800集群可以错峰使用,在忙时动态调度,精确到分钟甚至秒级别切换,推高并发,提高利用率。另外有缓存机制,能把客户经常问的问题缓存起来,当不同用户问类似问题时,直接从缓存调出数据回复,不用再计算,其命中率达56.3%。

  A:阿里单卡能处理两千多个token,腾讯比阿里差一点,做不到两千个,字节与阿里差不多,两千上下。

  A:我们会复刻DS发布的东西,有些已快复刻出来,比如dualpipe把数据并串行的一起传的技术。像dualpipe、流水线等技术对大厂有很好的借鉴意义,运用这些技术后,集群每秒支持的token数能从12万提升到25万,对集群性能有很大帮助。

  A:算成本应考虑百分之百的时间,但集群不可能百分之百利用。DS把峰值当分子来计算成本的方法有问题,一般用平均值计算,要考虑闲置状态和其他非计算时间。

  A:DS的计算方法有点蹊跷,它能做到16块能盈利,但它本身不追求盈利,只追求不亏或微利,更想要技术影响力、技术品牌以及技术规范,让模型广泛被使用,未来再考虑商业化。对于将其部署到自己集群的厂家,很难盈利,原因一是硬成本高,DS有3000万日活分担loading,一般企业业务单一做不到高并发高速率,运算成本高;二是这些技术有其know-how,别人只能接近不能超越,成本依然较高。在AI领域,模型能力和价格被大厂拉齐后,接下来要拼成本、推理速度,还要拼产品,未来客户会为产品买单,大厂都会规划模型并推出一系列好产品来拉开差异化竞争。

  A:大厂在计算定价时会开出限流条件,比如限制每分钟query1500,每分钟12万个token等。通过测算这个平衡值,知道背后需要多少集群来支持限流条件,从而更好地定价来守住成本。

  A:DS的B端已停止充值,在库没有扩容之前,不支持更多用户进来,先让之前充值的客户用完。目前算力占比30%左右支撑B端,70%以上支持C端,两端loading都有压力,B端用户使用时已感觉卡慢。

  A:DS买卡受限,短期内会找公有云伙伴。一是华为,华为会把DS模型部署在升腾上面,还会开放更多预训练代码,让其可以在线做训练;二是阿里云,阿里云在扩容,华为云和阿里云大概每家会分担1000万level的负荷。短期内先把3000万日活撑起来,这项工作大概在下旬到4月之间完成。

  A:DS官方没说数量,卡的类型主要是前两年买的A100、A800、H800这3种。

  Q:通过类似Inference的优化,国产芯片的性能是否可以进一步提高,您对国产芯片怎么看?

  A:H800是被后替代H100的,优化H800是解锁英伟达的性能,而国产芯片本身未被。有五个相关技术,但不是每个技术都能用。比如带宽方面,国产很多是PCle,华为有自己的通讯库可参照但要修改;FP8不是每种卡都支持,支持的卡才行。对于通讯网络的优化肯定可行,不管哪家多少都能优化,但要优化到英伟达的水平基本不可能,能让国产芯片从能用变成好用,比如从65分提升到70-75分。

  A:如果3、4月搞定扩容,到今年第三季度稳稳当当能做到5000万日活。因为已经形成良性的模型循环,V1和R1相互自我迭代,V4、R24、5月就要出来。依托在C端的底层模型能力和R2的能力,今年6000万日活可期。到今年6月,3500-4000万基本没难度,但前提是要迅速解决load问题,否则用户体验不好就不会进来。

  A:通过技术扩容,把技术共享给云厂商,让云厂商来跑,将存量卡效率挖出来,就能支持更多业务,因为云厂商算力不充足,新卡还未到位。

  Q:阿里云、腾讯云等大厂如果客户规模比较大,是否会有正外部性或赢者通吃的局面?

  A:会形成庞大的规模效应,出现赢者通吃的格局。头部大厂本身有业务,如阿里的电商、腾讯的社交,再加上外部大几千万日活的超级APP,集群规模效益提升。大厂能把算力做成资源池,用先进的动态调度算法获取资源,高效使用资源来分摊成本。小厂业务单一,无法像大厂这样均衡分摊算力成本。随着用户增多,大厂成本会下降,还会形成数据闭环,让业务更强。

  Q:后面云的利润率怎么看,通过极致的inference优化,利润率提升的潜力如何?

  A:现在文本模型定价下跌,倒逼云厂商提升运营效率,虽利润下降但厂家仍能保持一定利润率不亏损。接下来文本模型的利润率可能保持在15%-20%左右。到第二、三季度多模态模型出现,其不会像现在这么便宜,因为算力系数增多、token更多。多模态时代玩家会收敛,大家会保持一定利润率,之后产品力将是竞争的新维度,这样云的利润才能保持较好。

  A:头部大厂利润率基本在15%左右(如定价16块时),处于微利状态,其他家基本上是亏的。主要原因一是大厂有较多算力储备,可用V100、T4等便宜的卡,硬件分摊成本低;二是大厂本身有业务量分担,能保持高的loading,而第二梯队业务量不饱满。

  Q:大厂接入DS之前,阿里云相关业务的毛利率情况如何,在周五发布文章前后有何对比?

  A:去年12月,Maas这款业务毛利能保持在30%-40%,到现在如果纯粹看模型,利润率基本上跌到15%左右。如果再过几周把技术慢慢复刻出来,成本往下探一点,按照现在定价,毛利率基本上又会回到25%-30%。

  Q:DS的Alinfra对AI芯片有什么意义,能否激发芯片潜在设计和性能提升?

  A:DS出来后对国产芯片是很好的机会。一是国产芯片过去难在市场模型多且高速迭代未收敛,现在DS的文本模型已收敛,新厂只要先适配好DS的模型,跑出一定性能,就能形成好的解决方案落地及商业化;二是DS开放的技术,如优化推理速度通信等,对国产芯片有很好的借鉴意义,芯片公司可参照解决以前自己解决不了的技术点。未来国产芯片、中间件公司、模型公司三家合作,能做出完整解决方案,让模型移植到芯片上跑出好性能。今年是国产芯片的好时机,利用窗口期打磨产品,下半年或明年有望走出对英伟达的依赖,争取更多国内AI市场份额。

  Q:大厂对于AI这一块的CapEx会有怎样的想法,会不会因为相关技术出来而缩减?

  A:大厂不会缩减AI的CapEx。原因一是现在技术处于AI发展早期,从整个AI发展路径看还有很长路要走,技术发展过程中需要很多算力,从文本到多模态的推理和训练都需要算力;二是面向下一代技术迭代,行业技术逻辑已从传统CPU驱动算力到AI驱动,做游戏、Office产品、SaaS、PaaS、APP等都要以AI作为基础设计组件,产品面向公众和B端、C端时都需要大量算力支撑,如阿里云上有四百多万上云客户,9%-10%的客户已迁移到用AI,到今年年底渗透率将达20%。所以CapEx是面向未来五年、十年的长期坚定投入。

  A:市场里70%以上使用上云或IT改造技术的客户选择公有云,另外还有混合云模式。混合云适用于有敏感数据的行业,如金融量化、医药研发、生命科学等,这些行业日常实验、推理用本地小机型,当本地计算支撑不了又不想大量增加硬件投资时,可快速接入公有云弹性扩展算力,用完释放。未来趋势是混合型架构,即私有云与公有云结合,不会纯粹只用私有云。

  A:阿里基本上75%左右的客户是公有云,25%左右是混合云;腾讯大概80%是公有云,20%是混合云;字节大概是三七开。

搜索