Volume 3,Issue 5
无法对齐的智能:论价值对齐的哲学迷思与技术困境
人工智能与“主流价值”对齐的设想充满争议。其哲学根源在于:人类无法完整定义自身目标,且智能与最终目标相互独立(正交论),导致“向谁对齐”成为加剧社会不公的政治难题。技术路径也陷入两难:自下而上的RLHF因固化偏见而沦为民主幻象;自上而下的宪法AI则因精英主义而缺乏合法性。更根本的是,若AI只是无法理解价值的“随机鹦鹉”,那么对齐的技术路线之争,本质上就是人类政治治理困境在算法世界的重演。
[1] 庞珣 . 全球秩序与人工智能对齐——超越技术问题的国际关系理论视角[N/OL]. 北京大学新闻网, 2025-05-23
[2] 郝建国, 董宣, 张家俊, 等. 大语言模型对齐技术综述[J]. 计算机应用, 2023.
[3] 丁汉 . 算法时代主流价值观的引领[N]. 新闻战线, 2021-11-20.
[4] 王宏波, 肖峰. 人工智能驱动下英雄精神传播的价值冲突与路径创新[J]. 西南大学学报(社会科学版), 2024, 50(4): 63-73.
[5] 刘宏宇, 张严. 人工智能驱动下青年价值观的风险挑战与塑造路径[J]. 中国青年研究, 2024(11): 60-68.