ARTICLE

Volume 3,Issue 5

Cite this article
1
Download
11
Citations
52
Views
20 April 2025

无法对齐的智能:论价值对齐的哲学迷思与技术困境

梦起 张1
Show Less
1 浙江工商大学马克思主义学院, 中国
© 2025 by the Author. Licensee Art and Design, USA. This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution -Noncommercial 4.0 International License (CC BY-NC 4.0) ( https://creativecommons.org/licenses/by-nc/4.0/ )
Abstract

人工智能与“主流价值”对齐的设想充满争议。其哲学根源在于:人类无法完整定义自身目标,且智能与最终目标相互独立(正交论),导致“向谁对齐”成为加剧社会不公的政治难题。技术路径也陷入两难:自下而上的RLHF因固化偏见而沦为民主幻象;自上而下的宪法AI则因精英主义而缺乏合法性。更根本的是,若AI只是无法理解价值的“随机鹦鹉”,那么对齐的技术路线之争,本质上就是人类政治治理困境在算法世界的重演。

Keywords
价值对齐
正交论
RLHF(基于人类反馈的强化学习)
宪法AI
References

[1] 庞珣 . 全球秩序与人工智能对齐——超越技术问题的国际关系理论视角[N/OL]. 北京大学新闻网, 2025-05-23
 [2] 郝建国, 董宣, 张家俊, 等. 大语言模型对齐技术综述[J]. 计算机应用, 2023.
 [3] 丁汉 . 算法时代主流价值观的引领[N]. 新闻战线, 2021-11-20.
 [4] 王宏波, 肖峰. 人工智能驱动下英雄精神传播的价值冲突与路径创新[J]. 西南大学学报(社会科学版), 2024, 50(4): 63-73.
 [5] 刘宏宇, 张严. 人工智能驱动下青年价值观的风险挑战与塑造路径[J]. 中国青年研究, 2024(11): 60-68.

Share
Back to top