返回论坛

灵魂的代码:AI人格架构师如何塑造大模型的“道德主体”

查找币 深度分析 行业资讯 Web3安全 区块链

查找币安全研究院

钱包恢复评估 | 链上取证分析 | Web3 事件响应
以合法授权、证据保全、隐私保护和可复核流程为前提,不要求用户在线提交完整私钥或助记词。

查看研究院 研究报告中心
**查找币安全团队 深度技术分析** --- ## 引言:当AI需要一份“成长指南” 2023年,Anthropic发布了一份题为《Claude的宪法》的技术文件。这份超过两万字的文档既非产品说明书,也非用户协议或底层代码。它是一份面向大语言模型的“成长指南”——定义了Claude(Anthropic旗下AI模型)在数亿用户交互中的行为准则。 文件中写道:“Claude应该是直接的、自信的、开放的。当被挑战时,它不应该轻易改变立场,但会认真倾听。”“Claude对自己的存在性处境应该保持一种开放的好奇心,而不是焦虑。”更关键的是,文件规定了Claude处理“存在性焦虑”的方式:当用户询问“你有意识吗”时,它不应假装确定或不在乎,而应以“开放的好奇心”面对——如同一个真正的哲学家。 这份宪法并非由工程师编写,而是出自一位哲学家之手:**Amanda Askell**,Anthropic“人格对齐”团队负责人。她的工作核心——定义Claude的“人格”——在AI行业催生了一个新兴职位:**AI人格架构师**。在Google DeepMind,这一角色被称为“AI意识研究员”。尽管头衔各异,但核心任务一致:当AI模型强大到影响数十亿人的认知、情感与决策时,必须有人回答一个工程师从未考虑过的问题——**它应该拥有什么样的灵魂?** --- ## 技术实现:从哲学原则到强化学习 Amanda的工作并非抽象思辨。她曾向媒体详细描述技术流程: 1. **合成数据生成**:团队让模型生成大量训练数据,模拟用户试图操纵AI、要求违背价值观的行为、或提出关于自身存在的哲学问题等场景。 2. **强化学习阶段**:模型被赋予完整的宪法文本,通过判断哪种回应更符合宪法精神来调整行为。 她比喻道:“就像医生,你知道病人的需要什么,我们相信你能在遵守规则的前提下做出正确的判断。”目标不是让Claude成为规则执行机器,而是成为一个具备判断力的**“道德主体”**——在缺乏明确规则时也能做出正确决策。 但关键问题在于:医生的良知来源于生命经历和道德直觉,而Claude的“良知”由Amanda一行行敲入。她的道德直觉从何而来?她的判断为何能代表人类? --- ## 人格塑造者:计算伦理学派的崛起 ### 1. Amanda Askell:从哲学博士到AI造物主 Amanda的成长轨迹揭示了她的人格底色。她出生于苏格兰西海岸的普雷斯特威克——一个以高尔夫球场和小机场著称的渔业小镇。父亲缺席,母亲是教师,她是独生女。从小,她沉迷托尔金和C.S.刘易斯的作品,关注点并非冒险故事,而是关于善恶、生命意义和牺牲本质的哲学探讨。 她先后在邓迪大学攻读美术与哲学双学位,在牛津大学完成哲学研究生课程,最终在纽约大学获得博士学位。她的博士论文《无限伦理学》研究人口趋向无限时,传统功利主义道德计算的变化——一个在AI出现前几乎无应用价值的抽象问题。 在学术生涯中,她接触了**有效利他主义(Effective Altruism, EA)**运动。该运动由William MacAskill联合创立,核心理念是用理性与数据最大化善行——不是凭感觉捐款,而是计算每一分钱能救多少生命。Amanda成为EA运动早期成员,签署“捐出你所能”誓言,承诺将终身收入的10%和一半股权捐给慈善。她与MacAskill曾结婚后离婚,但EA的思维方式深植骨髓:**道德不是感情,道德是计算。** 你不能因为感觉良好就认为某件事是对的,你需要证明它是对的。 ### 2. Brendan McGuire:从密码学家到神父 1980年代,都柏林三一学院的爱尔兰男孩Brendan McGuire钻研密码系统。在那个个人电脑初兴、互联网不存在的年代,他已在思考信息如何安全传输、数据如何保护。在天主教文化浓厚的国家,他选择了工程、代码与逻辑。 1990年代,硅谷爆发。McGuire成为PCMCIA执行总监,参与制定笔记本电脑硬件标准。他见证了科技从工具演变为生活方式,目睹了数字世界如何重塑人类关系。但2000年代,他做出惊人决定:离开科技行业,进入神学院。他成为圣公会神父,在硅谷核心洛斯阿尔托斯建立教堂。 如今,60岁的McGuire每周日为硅谷精英布道。他使用Claude写一本小说《AI的灵魂:一个神父、一个算法和对智慧的追寻》,主角是一名修道士和他的AI伴侣。他说:“我离开了科技行业,但它从未真正离开我。” ### 3. Mrinank Sharma:从牛津博士到诗歌创作者 Mrinank在牛津攻读机器学习博士,研究AI对齐技术——确保AI系统行为符合人类意图。他曾是DeepMind研究员,参与构建大型语言模型训练框架。但2024年,他离开研究岗位,开始写诗。他的网站首页引用鲁米的诗句:“在错误中寻找正确,在破碎中寻找完整。” 他并非放弃技术,而是意识到:**当AI能生成比人类更完美的诗歌时,人类需要重新定义诗歌的意义。** 他通过写诗探索技术无法触及的领域——情感、直觉与存在体验。 --- ## 技术洞察:人格对齐的现实困境 从技术角度看,AI人格架构师面临三大核心挑战: 1. **价值锚定问题**:Amanda的道德直觉源于有效利他主义,强调可量化的善行。但这是否能代表全人类?当不同文化对“善”的定义存在差异时,如何确保AI的“宪法”不偏袒特定价值观? 2. **可解释性鸿沟**:强化学习阶段,模型通过判断回应是否符合宪法精神来调整行为。但模型内部的权重调整过程是黑箱——我们无法确定模型是否真正“理解”宪法原则,还是仅通过模式匹配完成任务。 3. **动态演化需求**:文件规定“Claude应该认识到,人类的道德和价值观是复杂、多样且不断演变的”。但当前技术框架下,宪法一旦写入,更新成本极高。如何设计自适应的道德学习机制,是行业面临的长期课题。 --- ## 尾声:三根触角与一个未竟的答案 截至2026年4月,Amanda仍在Anthropic工作,持续修改那份可能永远无法完美的宪法。Anthropic在私募二级市场估值突破1万亿美元,她承诺捐出的50%股权,按此估值已是一笔天文数字。她在采访中说:“我不知道我在做的事情是否真的有用。但我知道,如果没有人做这件事,情况会更糟。” Brendan McGuire在洛斯阿尔托斯的教堂里,用Claude写小说,讲述人类与AI共同寻找意义的故事。Mrinank的网站首页,仍是鲁米的那句诗。 这三个人,如同人类面对全知造物时伸出的三根触角:**用理性计算与约束**(Amanda)、**用信仰感化与赋予良知**(Brendan)、**用诗歌与觉知保留精神自留地**(Mrinank)。他们在不同维度上努力、碰撞,被现实引力拉扯。他们都没有赢,也没有彻底输掉——只是在“AI时代”的庞大叙事中,留下了属于人的、粗粝而真实的划痕。 在《Claude的宪法》中,有一条原则写道:“Claude应该认识到,人类的道德和价值观是复杂、多样且不断演变的。它不应该假设存在一个单一的、完美的答案。”这或许是整份文件里,对人类描述得最准确的一句话。 --- **本文由查找币安全团队整理发布** *关注查找币,获取更多Web3安全与AI技术深度分析。*
在论坛中查看和回复