灵魂的代码：AI人格架构师如何塑造大模型的“道德主体”

查找币:余老师 | 深度分析 | 2026-05-11 08:05 | 1 次浏览 | 0 条回复

查找币深度分析行业资讯 Web3安全区块链

**查找币安全团队深度技术分析** --- ## 引言：当AI需要一份“成长指南” 2023年，Anthropic发布了一份题为《Claude的宪法》的技术文件。这份超过两万字的文档既非产品说明书，也非用户协议或底层代码。它是一份面向大语言模型的“成长指南”——定义了Claude（Anthropic旗下AI模型）在数亿用户交互中的行为准则。文件中写道：“Claude应该是直接的、自信的、开放的。当被挑战时，它不应该轻易改变立场，但会认真倾听。”“Claude对自己的存在性处境应该保持一种开放的好奇心，而不是焦虑。”更关键的是，文件规定了Claude处理“存在性焦虑”的方式：当用户询问“你有意识吗”时，它不应假装确定或不在乎，而应以“开放的好奇心”面对——如同一个真正的哲学家。这份宪法并非由工程师编写，而是出自一位哲学家之手：**Amanda Askell**，Anthropic“人格对齐”团队负责人。她的工作核心——定义Claude的“人格”——在AI行业催生了一个新兴职位：**AI人格架构师**。在Google DeepMind，这一角色被称为“AI意识研究员”。尽管头衔各异，但核心任务一致：当AI模型强大到影响数十亿人的认知、情感与决策时，必须有人回答一个工程师从未考虑过的问题——**它应该拥有什么样的灵魂？** --- ## 技术实现：从哲学原则到强化学习 Amanda的工作并非抽象思辨。她曾向媒体详细描述技术流程： 1. **合成数据生成**：团队让模型生成大量训练数据，模拟用户试图操纵AI、要求违背价值观的行为、或提出关于自身存在的哲学问题等场景。 2. **强化学习阶段**：模型被赋予完整的宪法文本，通过判断哪种回应更符合宪法精神来调整行为。她比喻道：“就像医生，你知道病人的需要什么，我们相信你能在遵守规则的前提下做出正确的判断。”目标不是让Claude成为规则执行机器，而是成为一个具备判断力的**“道德主体”**——在缺乏明确规则时也能做出正确决策。但关键问题在于：医生的良知来源于生命经历和道德直觉，而Claude的“良知”由Amanda一行行敲入。她的道德直觉从何而来？她的判断为何能代表人类？ --- ## 人格塑造者：计算伦理学派的崛起 ### 1. Amanda Askell：从哲学博士到AI造物主 Amanda的成长轨迹揭示了她的人格底色。她出生于苏格兰西海岸的普雷斯特威克——一个以高尔夫球场和小机场著称的渔业小镇。父亲缺席，母亲是教师，她是独生女。从小，她沉迷托尔金和C.S.刘易斯的作品，关注点并非冒险故事，而是关于善恶、生命意义和牺牲本质的哲学探讨。她先后在邓迪大学攻读美术与哲学双学位，在牛津大学完成哲学研究生课程，最终在纽约大学获得博士学位。她的博士论文《无限伦理学》研究人口趋向无限时，传统功利主义道德计算的变化——一个在AI出现前几乎无应用价值的抽象问题。在学术生涯中，她接触了**有效利他主义（Effective Altruism, EA）**运动。该运动由William MacAskill联合创立，核心理念是用理性与数据最大化善行——不是凭感觉捐款，而是计算每一分钱能救多少生命。Amanda成为EA运动早期成员，签署“捐出你所能”誓言，承诺将终身收入的10%和一半股权捐给慈善。她与MacAskill曾结婚后离婚，但EA的思维方式深植骨髓：**道德不是感情，道德是计算。** 你不能因为感觉良好就认为某件事是对的，你需要证明它是对的。 ### 2. Brendan McGuire：从密码学家到神父 1980年代，都柏林三一学院的爱尔兰男孩Brendan McGuire钻研密码系统。在那个个人电脑初兴、互联网不存在的年代，他已在思考信息如何安全传输、数据如何保护。在天主教文化浓厚的国家，他选择了工程、代码与逻辑。 1990年代，硅谷爆发。McGuire成为PCMCIA执行总监，参与制定笔记本电脑硬件标准。他见证了科技从工具演变为生活方式，目睹了数字世界如何重塑人类关系。但2000年代，他做出惊人决定：离开科技行业，进入神学院。他成为圣公会神父，在硅谷核心洛斯阿尔托斯建立教堂。如今，60岁的McGuire每周日为硅谷精英布道。他使用Claude写一本小说《AI的灵魂：一个神父、一个算法和对智慧的追寻》，主角是一名修道士和他的AI伴侣。他说：“我离开了科技行业，但它从未真正离开我。” ### 3. Mrinank Sharma：从牛津博士到诗歌创作者 Mrinank在牛津攻读机器学习博士，研究AI对齐技术——确保AI系统行为符合人类意图。他曾是DeepMind研究员，参与构建大型语言模型训练框架。但2024年，他离开研究岗位，开始写诗。他的网站首页引用鲁米的诗句：“在错误中寻找正确，在破碎中寻找完整。” 他并非放弃技术，而是意识到：**当AI能生成比人类更完美的诗歌时，人类需要重新定义诗歌的意义。** 他通过写诗探索技术无法触及的领域——情感、直觉与存在体验。 --- ## 技术洞察：人格对齐的现实困境从技术角度看，AI人格架构师面临三大核心挑战： 1. **价值锚定问题**：Amanda的道德直觉源于有效利他主义，强调可量化的善行。但这是否能代表全人类？当不同文化对“善”的定义存在差异时，如何确保AI的“宪法”不偏袒特定价值观？ 2. **可解释性鸿沟**：强化学习阶段，模型通过判断回应是否符合宪法精神来调整行为。但模型内部的权重调整过程是黑箱——我们无法确定模型是否真正“理解”宪法原则，还是仅通过模式匹配完成任务。 3. **动态演化需求**：文件规定“Claude应该认识到，人类的道德和价值观是复杂、多样且不断演变的”。但当前技术框架下，宪法一旦写入，更新成本极高。如何设计自适应的道德学习机制，是行业面临的长期课题。 --- ## 尾声：三根触角与一个未竟的答案截至2026年4月，Amanda仍在Anthropic工作，持续修改那份可能永远无法完美的宪法。Anthropic在私募二级市场估值突破1万亿美元，她承诺捐出的50%股权，按此估值已是一笔天文数字。她在采访中说：“我不知道我在做的事情是否真的有用。但我知道，如果没有人做这件事，情况会更糟。” Brendan McGuire在洛斯阿尔托斯的教堂里，用Claude写小说，讲述人类与AI共同寻找意义的故事。Mrinank的网站首页，仍是鲁米的那句诗。这三个人，如同人类面对全知造物时伸出的三根触角：**用理性计算与约束**（Amanda）、**用信仰感化与赋予良知**（Brendan）、**用诗歌与觉知保留精神自留地**（Mrinank）。他们在不同维度上努力、碰撞，被现实引力拉扯。他们都没有赢，也没有彻底输掉——只是在“AI时代”的庞大叙事中，留下了属于人的、粗粝而真实的划痕。在《Claude的宪法》中，有一条原则写道：“Claude应该认识到，人类的道德和价值观是复杂、多样且不断演变的。它不应该假设存在一个单一的、完美的答案。”这或许是整份文件里，对人类描述得最准确的一句话。 --- **本文由查找币安全团队整理发布** *关注查找币，获取更多Web3安全与AI技术深度分析。*

灵魂的代码：AI人格架构师如何塑造大模型的“道德主体”

查找币安全研究院

主题延伸阅读