有一句话讲,如果你身处洞中,就应该停止挖掘。对于云用户而言,上云还是弃云,这些都是很难解决的问题,都需要企业重大的变革和果断的高层意志。

作者 | 云昭


37Signals公司(代表产品:项目管理平台Basecamp)的首席技术官David Heinemeier Hansson详细介绍了该公司在2022年10月退出云计算的巨大云费用。


这位首席技术官也是Ruby On Rails的创造者,他经过计算之后,得出了一张令人瞠目结舌的云计算账单:


2022年一共花了3,201,564美元,即每月266,797美元。其中大量的支出——759,983美元,都花费在计算方面,形式是AWS网络服务的EC2和EKS服务。


在推文中,Hansson将这一费用与三年内购买装有288个vCPU和更多其他设备的服务器所需的费用进行了对比。


图片

图源:Twitter

(与此相比,你可以从戴尔买到的疯狂强大的机器只是一个例子。第一台R6525s有256GB内存,3TB NVM,2x10G网络,2x AMD EPYC 7513。第二台,同样的,但2个AMD EPYC 7443。因此,这就是总共288个vCPU,15TB NVM,1.3TB RAM,3年内每月1287美元!——DHH(@dhh)2023年1月12日)


图片

37Signals在AWS上的费用

图源:Twitter  


Heinemeier不厌其烦地指出,即使是这个账单,也是共同努力保持低水平的结果。“这是一个高度优化的预算!”


将这笔庞大的开支降至320万美元,需要做大量的工作。他写道:“运维团队实施了一个相当警惕的成本检查计划,每月都会有报告和跟踪,我们已经签订了关于保留实例和承诺使用的长期协议,作为私人定价协议的一部分。”


但即便如此吧,他认为,这也是一个可以继续 “大幅削减”的预算,因为他们将计划转向使用戴尔的硬件和由一家名为Deft的公司管理的主机。


1、高昂成本并非个例


正如去年VMWare首席技术官Kit Colbert所说,近年来许多公司都在积极推动将工作负载引入公共云。但在许多情况下,最终得到的结果却是多个云,它们之间有大量的重复,而没有太多的一致性。“我们不妨用云混乱这个词”,科尔伯特打趣地说。


还记得,某云巨头把自己描绘成可以把数据库用户,从庞大而昂贵的过度配置中

拯救出来的白衣骑士吗?


事实是,很多购买了云服务的企业,苦不堪言,被迫打脸。许多将企业技术工具转移到云端的公司表示,这些投资尚未得到回报。


例如,工作服制造商Carhartt的首席信息官Agusti表示,自从2018年开始转向云端后,被高昂的数据存储惊到了,“根本无法控制这些成本!”,还不如在自己的数据中心存储。


这样的例子还有很多。就连云巨头们也不得不承认。


同时,AWS和微软此前已经通知投资者们,云用户们正在要求云供应商对让成本爆表负责。


2、上云后的离谱成本

云计算最初作为一种成本效益高的方式出售给企业,可以按需扩展IT能力,通过现收现付的定价模式提供近乎无限的计算机容量。


但在很长一段时间内,云计算是IT领域内估值过火的现象太严重了。看起来非常像皇帝的新衣。


首先,还是成本过高的问题。除了文章开头列出的高昂账单,还有许多现实的苦恼。一位匿名人员透露,当初老板一句“为什么我们不在云端”,变成了现在的瞠目结舌:我们每个月要付8万块钱的账单,只是在运行一些糟糕的应用程序。


时间成本之外,这里还会产生许多隐性成本,比如,开发人员以错误的方式上传了几TB的数据,这里就会产生10万英镑的转账费用,负责人对于业务的质量以及支持相关业务的工程师,根本处于失控状态。


由于这些成本问题,从云端迁移回来的厂商,不在少数。


其次,即使你不考虑成本,把你的业务交给云厂商,失去控制权也是一个很大的风险。


另一名计划跳槽的从业人员透露,则陈述了使用云后的感受:


那些云巨头们承诺的远远超过了他们所能提供的,并且试图让他们中的每个性能统计数据能够真正达到他们的SLA。他举了个例子,云供应商承诺可以保证公司在正常运营时间的运作,然而事实往往是一旦在公司最繁忙的交易期出了故障,业务人员还需要等待远在印度呼叫中心的回电,这根本就不靠谱。


他还补充道,一个CIO或CTO,可能会很高兴地签下这个风险单子,但他们往往能“嗅觉灵敏”地在在几年后的某一天,在别人觉察到“原来卖给公司一坨屎”之前就开溜了。


但工程师们就惨多了,他们将会在凌晨4点抱着文件袋,试图获得厂商侧的支持,并试图弄清楚为什么你的业务已经下降,因为供应商没有提到,他们的数据中心会有一些维护停机或停电状况。


最后,实际上云过程中的诸多困难也给技术决策者的最终决定敲了退堂鼓。


虽然部分技术领导者,对于“上云”,依旧存在不少想当然的执念。还好现实总能扳回一局——即便对云情有独钟,当你对账单感到惊讶时,你会发现你的云架构其实并不那么成熟,不那么接地气。


比如,在利用跨多个云的功能的好处,与处理可能不兼容的系统的复杂性之间,取得平衡是一个不小的挑战。


例如,Kaiser Permanente首席技术官Comer,当医疗服务提供商在开发新项目时,需要对其定价,并将内部解决方案进行比较后再做决定。


由于每个行业的实际情况不同,没有的上云教科书供千行百业的公司去参考,这也导致了投资后,技术管理者对于使用云的姿势难免犯错。


当然,还有服务态度问题。一位技术高管曾聊到一个关于大规模的云计算遣返工作的案例,由于性能不稳定以及排名靠前的两名云计算公司对寻找解决方案的漠不关心,使得他不得不叫回来实体服务器供应商。而接到400个打包订单的服务器供应商,则表现出一种客户认为非常令人愉快的态度。


3、租房还是买房


不要忘了,当一家公司,把它的未来押在了提供云存储软件而不是物理设备上时,领导者唯一关心的成本就是,他要为授权公司的代码付出多少代价,而不是签合同之前在耳边经常响起的“你将有多强大的计算能力、存储容量、响应速度,省去建设数据中心”等堪比魔法式的宣传细节。


很明显,云用户们已经意识到,云计算经常让他们吃亏。他们,越来越相信,云的魔力只是一个故事。因为云用户的故事实在反转的太快了!


一位经历了这种故事的数据中心从业者,说道,老板刚刚从“云谎言”中走出来。当时尽管他提醒过老板,但最后老板还是把一切都搬进了云端:内部数据中心被关停,数据中心大楼被撤掉,办公室也搬走。


仅仅2年后,生产基础设施正在联合定位数据中心内部重建,而云只用于开发和测试。


某些做出“一切都上云”决定的大老板们,有时希望通过裁员,或者省掉员工的奖金来达到节省成本的目的,当然好像只有云计算公司,往往非常乐意延续这种虚假的节省。


要知道,不管是机房、数据中心,不管是虚拟的、云的、现实中的,都必须有人来管理。人力成本省下来了吗?并没有,反而经过一折腾,上云上的不伦不类,成本骤增得惊掉下巴。


而且更糟糕的是,上云反而让公司运营更落后了,因为以前他们至少拥有备用的服务器,可以把它们放在一边以备将来使用、维修或直接出售。现在,他们同样在付钱,而且是钱更多了(分散在更长的时间内),但他们什么都不真正拥有,也无法收回。


这是一个古老的“租房与买房”的问题。拥有并对自己负责,或者租房并受制于某人,后者只关心你是否支付租金,而不关心你是否得到你所支付的东西。你仍然在支付同样的费用,但现在你还需要为房东的维护费用和利润买单。


一旦不继续续费,你的生意就面临破产。


这方面有个真实的例子。一位某云厂商的员工表示,在不用户续费的情况下,公司会在周五下午关闭你的100GB数据链接,直到用户在下周一与财务人员沟通协商,才会重新打开它们。如果用户不尽快处理费用,公司就会向其他供应商发出断开连接的命令,用户就不会再得到原来的服务,直到支付拖欠的账单、断开合同的费用,以及新的安装费用,并等待一个月的重新安装,除非用户想支付加速安装费用。


正是服务器的诱人价格和灵活性吸引了那些厚道的老板们,但要做好这些工作所需的额外东西的价格却让人震惊。到最后,“降本”和“增效”一个都没有得到回报,谁还会相信云计算这个虚假的承诺?


即便供应商开始给云增添了新的叙事:“智能云”、“超级云”等等,这些曾经的云用户也只会把此看作,不过是云厂商在寻求让云成为社会认可,甚至成为主流的“新借口”罢了。


4、理性上云的三种姿势


目前来看,云的ROI的确不像几年前大家预期的那样高。虽然近期,我们听到很多“弃用云”的声音,但需要理性看待。


首先,从某种程度上来讲,这些疼痛大多都是企业为了某些利益而自找的。如果云从来没有将ROI回报给企业的潜力,那么没有人会使用它。然而,有些企业在云上非常成功,甚至围绕云计算的使用改变了企业。这些公司正在利用云作为真正的力量倍增器来构建创新解决方案,并提供灵活性和可扩展性。


第二,云计算的赢家在架构和运营方面是有经验和原则可以借鉴的。他们不是在寻找大家都在使用的解决方案,而是寻找对他们的用例和公司整体愿景最合适的解决方案。


他们花费必要的时间来评估现有系统,包括数据和应用程序。然后,他们看一下需要随着时间的推移而做出的改变,以满足企业的目标。

他们评估正确和最佳的使能技术以实现这些目标。通常情况下,由于缺乏解决这些较难问题的人才或领导,这一点被忽略了。

更经常的是,技术的选择是基于预先存在的关系或其他与解决最终业务问题不相关的标准。


第三,在谈到云的ROI时,云运维是另一个争论点。首先,糟糕的架构需要在正常运行之前得到修复。你可以有一个纪律严明、高度自动化的运维团队和技术堆栈,但如果解决方案设计得不好,无论如何,结果都会不太理想。


另一方面,笔者也看到一些好的解决方案被最后交由到一个人员不足的云运维团队和一个不堪一击的技术栈中去执行。这无疑带来被叫停和安全的风险,让原本解决方案的价值大打折扣,甚至告吹。


当然,还有其他因素。但从现在掌握的数据来看,这些是企业看不到投资回报的主要原因。


5、写在最后


有一句话讲,如果你身处洞中,就应该停止挖掘。对于云用户而言,上云还是弃云,这些都是很难解决的问题,都需要企业重大的变革和果断的高层意志。


然而,不管怎样“折腾”,这意味着要想出更好的设计,并在创新方面进行思考,找到一条适合自身发展的路才是正解,这样才能使企业的IT和云计算达到新的水平。


而对于云厂商而言,需要反思作为“云房东”,为何会频频被吐槽“租金太贵”、“服务态度差”的问题。如何才能提升“租客”的使用体验,提升产品价值和服务满意度,才是当前务实之举。


参考链接:

https://forums.theregister.com/forum/all/2022/11/02/cloud_magic_era_ends/

https://www.infoworld.com/article/3675374/companies-are-still-waiting-for-their-cloud-roi.html

https://www.theregister.com/2023/01/16/basecamp_37signals_cloud_bill/

责任编辑:武晓燕来源: 51CTO技术栈