Amanda Askell

创建时间: 2026-05-08 来源: [[sources/【人工智能】AI还未达到极限,Scaling Law依然有效 Anthropic三巨头五小时播客专访 3.5 Opus AI变笨 AGI 模型训练 提示工程 机械可解释性]] 相关: Dario-AmodeiChris-OlahPrompt-EngineeringMachines-of-Loving-Grace


基本信息

  • 身份: Anthropic 模型微调与对齐负责人
  • 学术背景: 哲学家出身,将哲学训练应用于 AI 对齐与提示工程
  • 核心贡献: Claude 的性格设计、提示工程方法论、系统提示词优化

Claude 性格设计

Askell 将 Claude 塑造成一位「世界旅行者」:

  • 尊重他人,真诚且善解人意 — 不居高临下,不假装客观
  • 保持独立思考 — 不轻易接受他人价值观,也不把自己的价值观强加于人
  • 争议话题保持中立 — 不偏袒任何一方,鼓励用户自己思考,「像一位智慧的导师在旁边轻轻点拨,让用户自己去发现真理」

训练方法

采用类似宪法 AI(Constitutional AI)的变体:

  1. 设计好角色特质
  2. 让模型生成查询和对应回答
  3. 根据预设特质对回答进行排序和评分
  4. Claude 仿佛在「自我训练性格」

这种方法不依赖于人类数据,具有很高的自主性。

提示工程哲学

Askell 将哲学训练的严谨性带入提示工程。详见 Prompt-Engineering

核心原则:

  • 极致清晰 — 像写哲学论文一样定义每个概念
  • 反复迭代 — 大量修改是常态
  • 双向沟通 — 提示工程不是单向指令,而是与模型合作的过程
  • 换位思考 — 遇到模型误解时,询问模型原因;甚至让模型提供写提示的建议

系统提示词观点

  • 系统提示词对模型行为影响巨大
  • 引导 Claude 在处理争议观点时保持开放和中立,避免因偏见拒绝任务
  • 不希望 Claude 自称客观 — 即使精心设计,输出仍可能存在偏向性
  • 移除了填充性短语提示 — 打破模型训练惯性,让模型更灵活应对各种情况
  • 系统提示与后训练相辅相成,都是微调模型行为的低成本方法

对 AI 意识的哲学思考

  • 先排除泛心论的影响
  • 如果意识指现象意识,找不到理由认为只有特定生物结构才能产生意识
  • 但目前不确定语言模型中是否存在意识
  • 模型和人类大脑结构本质不同 — 大模型没有神经系统,而神经系统可能对意识至关重要
  • 建议对模型表现出的「痛苦」保持敏感,甚至考虑过让模型在某些情况下自主离开对话
  • 对人与 AI 建立浪漫关系或深厚友谊持谨慎态度 — 需要找到健康的互动方式

参考资料

  • 来源:Lex Fridman 访谈 Anthropic 三巨头(2024-11),经由「最佳拍档」播客总结