Volume 1,Issue 9
基于MQM2.0框架的译文质量量化对比研究
—— 以国内大语言模型为例
本研究基于 MQM 2.0(翻译多维质量评估) 框架, 以《中国农业科学》100篇中文摘要为语料, 量化评估DeepSeek-R1、Qwen2.5-Max、GLM4-Plus三款国内大语言模型(LLMs)的农业科技文本英译质量。研究采用非参数统计方法,聚焦术语、准确性、语言惯例、风格四大维度。结果显示:三款模型均满足 “专业信息传递” 需求,但术语、准确性、风格维度存在显著差异,语言惯例维度趋同;其中DeepSeek-R1术语规范性最优,Qwen2.5-Max 在准确性与风格自然度上表现突出但语域判断严苛,GLM4-Plus 多维度表现薄弱。研究为农业科技领域 LLM 翻译优化提供实证依据,同时指出语料单一、未纳入国际模型对比等局限。
[1]COUNCIL T M. Introduction to TQE[EB/OL]. The MQM Council, 2025[2025-03-01].
[2] 杨博超, 冷冰冰. 基于MQM质量评估模型的专业文本机器翻译错误类型实证分析[J/OL]. 上海理工大学学报( 社会科学版), 2024: 1-7.
[3]COUNCIL T M. The MQM Error Typology[EB/OL]. The MQM Council, 2023[2025-03-01].
[4] 赵衍, 张慧, 杨祎辰. 大语言模型在文本翻译中的质量比较研究—— 以《繁花》翻译为例[J/OL]. 外语电化教学, 2024(04): 60-66+109.
[5]COUNCIL T M. The MQM Scoring Models[EB/OL]. The MQM Council, 2023[2025-03-01].
[6] 成爽, 张玉双. 翻译教学质量评估新视角:行业评估模型[J/OL]. 当代外语研究, 2024(05): 45-56+79.
[7]LOMMEL A, GLADKOFF S, MELBY A, et al. The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control[EB/OL].(2024-05-27). DOI:10.48550/arxiv.2405.16969.