无法对齐的智能：论价值对齐的哲学迷思与技术困境

© 2025 by the Author. Licensee Art and Design, USA. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution -Noncommercial 4.0 International License (CC BY-NC 4.0) ( https://creativecommons.org/licenses/by-nc/4.0/ )

Download PDF

Cite

XML

HTML

Abstract

人工智能与“主流价值”对齐的设想充满争议。其哲学根源在于：人类无法完整定义自身目标，且智能与最终目标相互独立（正交论），导致“向谁对齐”成为加剧社会不公的政治难题。技术路径也陷入两难：自下而上的RLHF因固化偏见而沦为民主幻象；自上而下的宪法AI则因精英主义而缺乏合法性。更根本的是，若AI只是无法理解价值的“随机鹦鹉”，那么对齐的技术路线之争，本质上就是人类政治治理困境在算法世界的重演。

Keywords

价值对齐

正交论

RLHF(基于人类反馈的强化学习)

宪法AI

References

[1] 庞珣 . 全球秩序与人工智能对齐——超越技术问题的国际关系理论视角[N/OL]. 北京大学新闻网, 2025-05-23
[2] 郝建国, 董宣, 张家俊, 等. 大语言模型对齐技术综述[J]. 计算机应用, 2023.
[3] 丁汉 . 算法时代主流价值观的引领[N]. 新闻战线, 2021-11-20.
[4] 王宏波, 肖峰. 人工智能驱动下英雄精神传播的价值冲突与路径创新[J]. 西南大学学报(社会科学版), 2024, 50(4): 63-73.
[5] 刘宏宇, 张严. 人工智能驱动下青年价值观的风险挑战与塑造路径[J]. 中国青年研究, 2024(11): 60-68.

Previous article in this issue

Next article in this issue