华为最新推出AI推理黑科技UCM（推理记忆数据管理_betway·必威(西汉姆联)官方网站-Official Platform

华为最新推出AI推理黑科技UCM（推理记忆数据管理

更新时间：2025-10-19 20:54 类型：新闻资讯来源：网络整理

　　AI时期下，推理技艺相干用户与AI交互的体验，搜罗解答题目的时延、谜底的无误度以及庞大上下文的推理才华等，正在此布景下，华为最新推出AI推理黑科技UCM（推理回顾数据约束器），可大幅消浸推理时延与本钱，并大幅擢升推理效力。

　　据懂得，目前，外洋主流模子的单用户输出速率已进入200 Tokens/s区间（时延5ms），而我邦众数小于60 Tokens/s（时延50-100ms），若何办理推理效力与用户体验的困难迫正在眉睫。

　　“高延迟、高本钱是当下AI推理范围生长的首要挑拨。”华为数字金融军团CEO曹冲正在会上透露。

　　华为方面先容，行动一款以KV Cache为中央的推理加快套件，UCM调解了众类型缓存加快算法用具，分级约束推理流程中出现的KV Cache回顾数据，可扩展推理上下文窗口，以杀青高含糊、低时延的推理体验，消浸每Token推理本钱。

　　正在详细技艺杀青旅途方面，华为闭联担负人透露，UCM通过层级化自适宜的整体前缀缓存技艺，可杀青任性物理地点、任性输入组合上的KV前缀缓存重用，正在众轮对话、RAG常识检索等场景中直接移用KV缓存数据，避免反复揣度，使首Token时延最大消浸90%。

　　其它，UCM可遵循回顾热度正在HBM、DRAM、SSD等存储介质中自愿分级缓存，同时调解众种疏落当心力算法，杀青存算深度协同，使长序列场景下TPS（每秒统治Token数）擢升2—22倍，消浸每Token推理本钱。

　　另外，UCM通过动态KV逐层卸载、地点编码扩展、Prefill疏落等组合技艺，将超长序列Cache分层卸载至外置专业存储，行使算法打破模子和资源局部，杀青10倍级推理上下文窗口扩展。

　　华为闭联担负人透露，如今，中邦互联网企业正在AI范围的投资领域仅为美邦的相当之一。与此同时，邦内大模子的推理体验与海外比拟仍存正在差异——而推理体验的亏欠会直接导致用户流失，进而减缓企业的投资节律；投资紧缩又会使企业难以承当振奋的推理本钱，反过来进一步局部推理体验的擢升，酿成恶性轮回。UCM或许正在算力根源措施参加维持褂讪的条件下，明显优化推理体验，促进AI推理进入“体验擢升—用户增加—投资加大—技艺迭代”的贸易正轮回。

　　记者懂得到，华为UCM已率先正在中邦银联“客户之声”“营销筹办”“办公助手”三大营业场景中，展开聪明金融AI推理加快行使试点，并已赢得必定成绩。

　　“AI时期后，Token经济时期到来，目前推理流程仍存不少挑拨，若何改正推理编制的体验和效力是一个紧张的话题。与中邦银纠合作落地UCM，对待AI推理的效力来说是一个有用的打破。”华为副总裁、数据存储总裁周跃峰透露。

　　跟着AI行使向各样实质场景深度渗入，用户领域和哀告量快速攀升，模子理解和天生的Token数更流露指数级增加态势，最大化单Token智能承载力、优化其本钱成为厂商中枢方向，Token经济时期光临，教练、推理效力与体验量纲都以Token为外征。以火山引擎为例，2025年5月日均Token移用达16.4万亿，较2024年同期激增137倍。雄伟的Token统治量意味着振奋运营本钱——任职器爱护、电力损耗不断攀升；而保证流利推理体验又需加大算力参加。若何正在两者间找到均衡，成为全行业亟待破解的困难。

　　正在此布景下，华为部署于2025年9月正式开源UCM，届时将正在魔擎社区首发，后续慢慢奉献给业界主流推理引擎社区，并共享给业内全体Share Everything(共享架构)存储厂商和生态伙伴。

　　“为什么要开源，是希冀行业内更众人（企业）沿途促进推理框架、尺度的酿成，这是一个专家共创尺度、合伙促进推理范围加快生长的流程。”华为闭联担负人透露。

上一篇：金溢科技002869：下一篇：仅作为信息交流之用

返回列表