Amanda Askell

创建时间： 2026-05-08 来源： [[sources/【人工智能】AI还未达到极限，Scaling Law依然有效 Anthropic三巨头五小时播客专访 3.5 Opus AI变笨 AGI 模型训练提示工程机械可解释性]] 相关： Dario-Amodei，Chris-Olah，Prompt-Engineering，Machines-of-Loving-Grace

基本信息

身份： Anthropic 模型微调与对齐负责人
学术背景： 哲学家出身，将哲学训练应用于 AI 对齐与提示工程
核心贡献： Claude 的性格设计、提示工程方法论、系统提示词优化

Claude 性格设计

Askell 将 Claude 塑造成一位「世界旅行者」：

尊重他人，真诚且善解人意 — 不居高临下，不假装客观
保持独立思考 — 不轻易接受他人价值观，也不把自己的价值观强加于人
争议话题保持中立 — 不偏袒任何一方，鼓励用户自己思考，「像一位智慧的导师在旁边轻轻点拨，让用户自己去发现真理」

训练方法

采用类似宪法 AI（Constitutional AI）的变体：

设计好角色特质
让模型生成查询和对应回答
根据预设特质对回答进行排序和评分
Claude 仿佛在「自我训练性格」

这种方法不依赖于人类数据，具有很高的自主性。

提示工程哲学

Askell 将哲学训练的严谨性带入提示工程。详见 Prompt-Engineering。

核心原则：

极致清晰 — 像写哲学论文一样定义每个概念
反复迭代 — 大量修改是常态
双向沟通 — 提示工程不是单向指令，而是与模型合作的过程
换位思考 — 遇到模型误解时，询问模型原因；甚至让模型提供写提示的建议

系统提示词观点

系统提示词对模型行为影响巨大
引导 Claude 在处理争议观点时保持开放和中立，避免因偏见拒绝任务
不希望 Claude 自称客观 — 即使精心设计，输出仍可能存在偏向性
移除了填充性短语提示 — 打破模型训练惯性，让模型更灵活应对各种情况
系统提示与后训练相辅相成，都是微调模型行为的低成本方法

对 AI 意识的哲学思考

先排除泛心论的影响
如果意识指现象意识，找不到理由认为只有特定生物结构才能产生意识
但目前不确定语言模型中是否存在意识
模型和人类大脑结构本质不同 — 大模型没有神经系统，而神经系统可能对意识至关重要
建议对模型表现出的「痛苦」保持敏感，甚至考虑过让模型在某些情况下自主离开对话
对人与 AI 建立浪漫关系或深厚友谊持谨慎态度 — 需要找到健康的互动方式

参考资料

来源：Lex Fridman 访谈 Anthropic 三巨头（2024-11），经由「最佳拍档」播客总结

Notes Wiki

Explorer

Amanda-Askell