在国产算力生态从“环境就绪”向“效能引领”跨越的关键阶段,软硬件间的深度协同与生态适配效率已成为决定大模型落地速度的核心变量。
近日,范式信创模盒宣布,其发布的InfiniVRAM(无限显存)技术已扩展支持昆仑芯P800,在昇腾910B系列上率先验证了“单卡多模型、秒级热切换”的可行性。该技术于今年一月正式发布,是信创模盒的XC-LLM推理引擎的首个重磅特性。
基于XC-LLM统一的显存管理抽象架构,范式不仅实现了核心技术的平滑迁移,更助力昆仑芯P800在极短时间内达成100+主流模型适配的里程碑。在性能实测中,静态图模式下的推理速度更是展现出超越A100的表现。
统一显存管理架构:实现跨平台平滑迁移
此次昆仑芯P800的快速适配,得益于XC-LLM统一的显存管理抽象架构。
通过复用已有的显存管理层接口与资源治理协议,技术团队完成了从昇腾到昆仑芯的高效迁移。这种“架构驱动”的设计哲学,屏蔽了底层硬件的复杂差异,为后续向海光、寒武纪等更多信创芯片的快速扩展奠定了标准化基础。在信创算力生态中,范式正在将“模型适配”从繁重的重复劳动进化为高效的“工业化生产”。
百模适配达成:覆盖1B至72B全谱系
依托XC-LLM推理引擎,昆仑芯P800目前已成功适配百余款模型,架构覆盖广泛:
-
全系列主流架构:Qwen(1.5/2/2.5/3)、GLM-4、Llama(2/3/3.1/3.2)以及OLMo等。
-
全尺寸支持:测试范围涵盖1B至72B的各种模型参数规模。
这意味着开发者可以无需顾虑算力底座,在P800上实现大模型应用的“开箱即用”。
性能突破:静态图模式超越英伟达A100
除适配广泛外,XC-LLM引擎对昆仑芯XPU-P架构的潜能挖掘同样也体现在在性能参数上。在Qwen3-8B的推理实测中,开启XC-LLM静态图模式后的P800展现出更强竞争力:
-
昆仑芯P800 (XC-LLM):112.8 token/s
-
NVIDIA A100:89.6 token/s
实测数据显示,P800的推理吞吐量已显著超越A100,充分释放了国产自研架构在高并发推理场景下的核心优势。
虚拟化突破:InfiniVRAM助力算力“动态治理”
针对信创落地中显存利用率低、资源分配死板的痛点,XC-LLM在P800上实现了深度的资源隔离与虚拟化管理:
-
InfiniVRAM显存虚拟化分配:支持单卡部署多模型且总显存需求远超物理容量的场景。当请求在不同模型间切换时,调度系统触发秒级热切换,完成显存换入换出,全过程对应用层透明。
-
GPU柔性虚拟化:基于昆仑芯P800搭载的96GB HBM2e高速显存,XC-LLM支持将单卡切分为2x48G或4x24G等多种规格。系统能够根据不同模型的实际胃口,动态调整算力分配,实现“一卡多机”或“单卡多任务”的最优资源配置。
生态演进:作为插件无缝接入vLLM
为了让开发者能够同步全球最前沿的算法进展,范式积极拥抱开源生态。通过对vLLM-Kunlun的深度开发,现已支持无缝接入最新版本vLLM引擎。
这种“插件化”设计,能够支持Qwen(2/2.5/3)、GLM(4.5/4.7/5)、DeepSeek(R1/V3/V3.2)等多款大模型,确保P800在将来能够迅速支持各类新模型,真正实现“底层算力与前沿生态的零时差对齐”。
XC-LLM 推理引擎代码库(昆仑芯专版)现已同步更新:
未来,我们将继续携手合作伙伴,让每一份国产算力都能在EngineX引擎的驱动下,“算”尽其用,“算”出未来。
范式集团(港交所代码: 6682)是全球领先的通用人工智能科技公司,以“AI for everyone”为使命,致力于用“AI agent+世界模型”的技术路线赋能千行万业。公司成立于2014年,于2025年实现集团化,下设企业服务(第四范式)、大模型与AGI(万神殿)、消费电子(范式领航)、智慧能源(范式方舟)、智慧体育(范式网动)等业务板块。截至目前,公司已在金融、零售、医疗等领域成功落地超10000+个AI应用,始终致力于推动AI普惠,助力企业实现可持续增长。



