(文/李弯弯)随着人工智能技术的快速发展,对GPU计算能力的需求也越来越高。国内企业也正在不断提升GPU性能,以满足日益增长的应用需求。然而,相较于国际巨头,国内GPU仍然存在差距,国产GPU在不断成长的过程中也存在诸多挑战。
在大模型训练上存在差距
大语言模型是基于深度学习的技术。这些模型通过在海量文本数据上的训练,学习语言的语法、语境和语义等多层次的信息,用于理解和生成自然语言文本。大语言模型是自然语言处理(NLP)领域中的一个重要分支,应用于文本生成、分类、情感分析等多种任务。
深度学习是现代机器学习领域的一种强大的算法,它可以在图像识别、语音识别、自然语言处理、游戏AI等各种应用领域取得惊人的成果。然而,深度学习对计算几硬件的要求非常高,通常需要使用GPU进行大规模训练。在使用GPU进行深度学习时,一个常见的问题就是选择单精度还是双精度。
浮点数是一种用于表示实数的数值格式,它包括符号位、指数位和尾数位三部分。通过这三部分,浮点数可以表示非常大或非常小的数,同时保持一定的精度。
单精度和双精度是指浮点数在计算机中的存储方式和精度。单精度通常使用32位(4字节)来存储一个浮点数,而双精度则使用64位(8字节)来存储。由于双精度使用了更多的位数,因此它可以表示更大范围的数值,并具有更高的精度。
大模型训练需要处理高颗粒度的信息,因此对于用于大模型训练的GPU芯片处理信息的精细度和算力速度要求更高,现阶段,国产GPU在支持大模型训练的能力方面相对来说还较差。
不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求,双精度浮点计算能力FP64是进行高算力计算的硬性指标。英伟达的A100同时具备上述两类能力,而国内大多GPU只能处理单精度浮点计算。
从目前的信息来看,海光信息的协处理器(DCU)能够支持FP64双精度浮点运算,海光DCU属于GPGPU 的一种,采用“类CUDA”通用并行计算架构。据该公司介绍,其DCU产品能够完整支持大模型训练。不过相比于英伟达的A100性能只有其60%。
另外,景嘉微表示面向AI 训练、AI推理、科学计算等应用领域研发成功的景宏系列,支持INT8、FP16、FP32、FP64等混合精度运算,该产品在大模型的训练上或许也可以期待一下。
在软件和生态方面存在差距
除上述情况以外,国产GPU在软件和生态方面与全球领先品牌相比,也存在一定的差距。软件工具链的完善度方面,全球领先的GPU厂商已经构建了完整的软件工具链,包括编译器、调试器、性能分析工具等,可以方便地支持开发人员进行GPU程序的开发、调试和优化。而国产GPU在这方面还需要进一步完善,以满足用户的多样化需求。
生态系统的成熟度方面,全球GPU市场已经形成了较为成熟的生态系统,涵盖了各种应用领域和场景。然而,国产GPU在生态系统建设方面尚处于起步阶段,缺乏足够的应用支持和市场认可。这导致国产GPU在市场上的竞争力相对较弱,难以与全球领先品牌抗衡。
近些年可以明显的看到,国产PGU企业也正在这些方面不断努力。在软件支持方面,国产GPU企业正在积极与主流操作系统、开发环境以及图形处理软件等进行适配,确保用户能够流畅地使用各种应用软件。同时,一些企业还在推动GPU在人工智能、云计算等新兴领域的应用,为国产GPU生态注入新的活力。
在驱动程序优化方面,国产GPU企业也在加大投入力度,不断提升驱动程序的性能和稳定性。通过优化驱动程序,可以充分发挥GPU的性能优势,提升整体计算效率。
此外,国产GPU企业还在积极探索与各种应用场景的深度融合。例如,在游戏、图形设计、视频渲染等领域,国产GPU正在与相关企业合作,共同推动相关应用的发展。这种深度融合不仅有助于提升国产GPU的市场竞争力,也有助于推动整个产业的进步。
写在最后
近些年国产GPU正在蓬勃发展,不过相较于国际巨头,仍然存在较大差距。近年来,大模型快速发展,国产GPU在大模型训练方面的不足也凸显出来。不过也可以看到,目前国产GPU企业都在积极朝大模型方向布局,包括训练和推理。另外软件和生态建设也在加速推进。