随着 AI 推理与训练在边缘侧和终端侧加速落地,越来越多的算力卡(NPU、AI 加速卡、推理卡)需要部署在 Windows 工作站与服务器上。然而,大多数算力芯片原生仅提供 Linux 驱动及 SDK,Windows 平台的驱动开发与生态构建成为落地的关键瓶颈。
这正是我们的核心能力所在。我们团队深度掌握 Windows 内核驱动开发全栈技术,已成功为多款主流算力芯片完成 Windows 驱动移植与开发,具备将 Linux 原生的 AI 算力产品完整交付至 Windows 平台的经过验证的工程经验。
算力卡的 Windows 驱动开发,远不止"装一个 .sys 文件"那么简单。它涉及操作系统内核编程、PCIe 总线协议、DMA 内存管理、中断机制、用户态接口设计等多个技术域的深度耦合。每一个环节的疏忽,都可能导致系统蓝屏(BSOD)——在生产环境中,这是不可接受的。
Windows 驱动开发运行在内核态,开发者必须精确管理 IRQL(中断请求级别)、非分页/分页内存分配、DPC 队列调度、同步锁粒度等底层细节。一个内存泄漏在应用层只是程序崩溃,在内核层则直接导致整个操作系统宕机。此外,Windows 驱动框架(WDF)本身就有 KMDF、UMDF、WDDM、MCDM 等多条技术路径,选择错误的框架意味着开发周期成倍增加,甚至推倒重来。
内核驱动无法像用户态程序那样在 IDE 中单步调试。开发者需要搭建双机调试环境(WinDbg + 内核调试连接),在崩溃转储(Crash Dump)中重建堆栈帧、寄存器状态和内存布局。一次问题复现可能耗费数小时甚至数天。Driver Verifier、静态驱动验证器(SDV)、代码分析工具(CodeQL/Prefast)的联合使用,也需要深厚的经验积累。
Windows 内核驱动必须经过 Microsoft 的签名流程——EV 代码签名证书、HLK/HCK 兼容性测试、Attestation Signing 服务、WHCP 认证——这一整套流程环环相扣。任何环节的疏漏,驱动都无法在开启 Secure Boot 的生产系统上加载。对于中国的硬件出海客户而言,合规流程的把控直接影响产品的上市时间。
Windows 生态涵盖 x86、amd64、arm64 三种 CPU 架构,以及 Windows 10/11、Windows Server、LTSC、IoT Enterprise 等多条产品线。算力卡驱动的开发不仅要处理 PCIe 协议在不同平台上的差异,还要确保用户态 SDK 在各类 Windows 版本上的一致性。这种跨架构、跨版本的工程复杂度,对团队的系统能力提出了极高要求。
我们在算力卡 Windows 驱动开发的各个层面均具备自主交付能力:
| 层面 | 能力覆盖 |
|---|---|
| 内核驱动开发 | KMDF 设备驱动程序、WDF 总线驱动开发;IRP/I/O 队列与 IOCTL 接口设计;中断服务例程(ISR)与 DPC 处理;DMA 引擎配置与缓冲区管理;设备重置、电源管理、热插拔处理 |
| PCIe 子系统 | PCIe 设备枚举与 BAR 空间映射;MSI/MSI-X 中断配置;TLP 层与配置空间管理;PCIe Gen2/Gen3/Gen4 兼容性适配 |
| 用户态接口 | 自定义 IOCTL 协议;用户态驱动库 (DLL) 开发;跨平台 API 抽象层设计;C/C++/C# 多语言 SDK 封装 |
| 调试与验证 | WinDbg 双机内核调试;Driver Verifier 压力检测;静态驱动验证器 (SDV);HLK/HCK 兼容性测试;Driver Isolation & DCH 合规 |
| 签名与分发 | Microsoft Attestation Signing;EV 证书管理;INF 文件编写;Windows Update 分发;各版本 Windows 驱动包制作 |
| AI 加速路径 | MCDM(Microsoft Compute Driver Model)适配;DirectML 算子接入;WDDM 子集能力评估与方案设计 |
该处理器基于自主架构,搭载于 PCIe 加速卡,原生仅提供 Linux 驱动与固件。我们完成了其在 Windows 平台上的完整驱动开发,使得该加速卡能够在 Windows 环境下被系统识别、初始化,并通过用户态 SDK 对外提供 AI 推理算力。在交付的驱动方案中,该加速卡已成功加载并运行 GGUF 格式的大语言模型,验证了驱动栈在真实 AI 推理负载下的完整性与稳定性。
该处理器基于自主架构,原生仅支持 Linux 下的配套软件栈。我们为其开发了完整的 Windows 内核驱动及配套用户态库,使其在 Windows 平台实现设备枚举、配置空间访问、DMA 传输和推理任务调度。该卡在 Windows 环境下同样成功加载并运行了 GGUF 大模型,证明了驱动方案对不同硬件架构和模型格式的良好适配能力。
我们提供灵活的工程合作模式,根据客户需求定制:
As AI inference and training proliferate at the edge and on endpoint devices, an increasing number of computing cards — NPUs, AI accelerators, and inference cards — need to run on Windows workstations and servers. However, most AI accelerator chips ship with Linux-only drivers and SDKs. Windows driver development and ecosystem enablement remain the critical bottleneck to deployment.
This is our core competency. Our team possesses deep expertise across the full stack of Windows kernel driver development. We have successfully completed Windows driver porting and development for multiple mainstream AI accelerator chips, with proven engineering experience in delivering Linux-native AI computing products to the Windows platform.
| Layer | Capability Coverage |
|---|---|
| Kernel Driver Development | KMDF device drivers, WDF bus driver development; IRP/I/O queue and IOCTL interface design; ISR and DPC handling; DMA engine configuration and buffer management; device reset, power management, hot-plug handling |
| PCIe Subsystem | PCIe device enumeration and BAR space mapping; MSI/MSI-X interrupt configuration; TLP layer and configuration space management; PCIe Gen2/Gen3/Gen4 compatibility |
| User-Mode Interface | Custom IOCTL protocol design; user-mode driver library (DLL) development; cross-platform API abstraction layer design; multi-language SDK packaging in C/C++/C# |
| Debug & Validation | WinDbg two-machine kernel debugging; Driver Verifier stress detection; Static Driver Verifier (SDV); HLK/HCK compatibility testing; Driver Isolation & DCH compliance |
| Signing & Distribution | Microsoft Attestation Signing; EV certificate management; INF file authoring; Windows Update distribution; driver package creation for all Windows versions |
| AI Acceleration Path | MCDM (Microsoft Compute Driver Model) adaptation; DirectML operator integration; WDDM subset capability assessment and solution design |
Case 1 — A Mainstream Domestic Inference Processor: Based on a proprietary architecture and deployed on a PCIe accelerator card, this processor natively provided only Linux drivers and firmware. We completed the full Windows driver development, enabling the card to be recognized and initialized by Windows and to deliver AI inference compute through a user-mode SDK. The card successfully loaded and ran GGUF-format large language models, validating the driver stack under real AI inference workloads.
Case 2 — A Domestic AI Training/Inference Processor: Built on a proprietary architecture with only a Linux-based software stack, we developed a complete Windows kernel driver and companion user-mode libraries, enabling device enumeration, configuration space access, DMA transfer, and inference task scheduling on Windows. The card also successfully loaded and ran GGUF large models in the Windows environment.