ARTICLE

Volume 1,Issue 7

Fall 2025

Cite this article
3
Download
10
Citations
66
Views
20 September 2025

基于注意力机制的Transformer模型并行计算架构设计研究

泽宇 苏1
Show Less
1 广东工业大学, 中国
ASDS 2025 , 1(7), 75–78; https://doi.org/10.61369/ASDS.2025070016
© 2025 by the 10.61369/ASDS.2025070016. Licensee Art and Design, USA. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution -Noncommercial 4.0 International License (CC BY-NC 4.0) ( https://creativecommons.org/licenses/by-nc/4.0/ )
Abstract

研究针对大规模Transformer模型训练所面临的计算效率和资源瓶颈,提出一种基于注意力机制的并行计算体系结构设计方法。在分析Transformer模型计算特点和并行要求的基础上,设计分层任务划分策略,优化计算负荷分配;建立混合并行通讯调度框架,降低交互代价,实现计算和存储资源的高效协同管理;构建弹性容错机制,保证分布式训练的稳定性。重点解决自注意机制二次复杂性导致的计算困难,以及大规模模型训练过程中通信和存储瓶颈。从细粒度的并行设计和系统优化两个方面,为百亿参数的 Transformer模型的高效训练提供切实可行的技术方案。

Keywords
注意力机制
Transformer模型
并行计算
架构设计
References

[1] 徐晓轶, 毛艳芳, 吕晓祥. 基于Transformer 和关键词信息聚合的电力科研成果命名实体识别[J]. 计算机应用,2024,44(S2):66-71.
[2] 石彬, 成苗, 张绍兵, 曾尚. 基于模糊核估计和交替Transformer 的二维码图像去运动模糊算法[J]. 计算机应用,2024,44(S2):234-239.
[3] 钟来民, 陆卫忠, 傅启明, 马洁明, 崔志明, 吴宏杰. 基于Transformer-BiLSTM 特征融合的DNA 结合蛋白预测方法[J]. 微电子学与计算机,2023,40(12):1-9.
[4] 廖健文, 杨盈昀, 卢玥. 基于稀疏Transformer 的长短时序关联动作识别算法[J]. 中国传媒大学学报( 自然科学版),2023,30(06):56-63.
[5] 唐雷, 许子祥, 高广谓. 基于Transformer 与注意力聚合的人脸超分辨率[J]. 计算机与数字工程,2023,51(12):2977-2983.
[6] 唐梦瑶, 黄江涛. 基于盒注意力机制和Transformer 的人脸微表情识别方法[J]. 人工智能科学与工程,2023,(09):57-67.
[7] 熊巍, 熊承义, 高志荣, 陈文旗, 郑瑞华, 田金文. 通道注意力嵌入的Transformer 图像超分辨率重构[J]. 中国图象图形学报,2023,28(12):3744-3757.
[8] 石德硕, 李军侠, 刘青山. 自注意力融合调制的弱监督语义分割[J]. 中国图象图形学报,2023,28(12):3758-3771.
[9] 郑晓旭, 舒珊珊, 文成玉. 基于注意力多分支卷积和Transformer 的手写文本识别[J]. 成都信息工程大学学报,2023,38(06):649-655.
[10] 刘华咏, 黄聪, 金汉均. 注意力增强的视觉Transformer 图像检索算法[J]. 电子测量技术,2023,46(23):50-55.

Share
Back to top