如果AI对关乎基督教信仰最常见的问题给出不可靠或不完整的信息,那会怎么样?
到 2028 年,用AI搜索的人将与用谷歌搜索的人一样多。
我们需要知道:我们能依赖AI给出的答案吗?
第一部分:我们学到了什么?
第二部分:我们如何进行研究?
第三部分:各个平台的得分情况如何?
第四部分:为什么各个平台的分数差异如此之大?
第五部分:这对文化、社会以及我个人意味着什么?
第六部分:福音联盟和凯勒中心接下来在 AI 方面会做什么?
第七部分:常见问题
明明使用相同技术,接受基本相同内容训练,又主要运行在相同芯片上,为何给出的答案竟有天壤之别?
五个最重要的发现
七位顶尖基督教研究学者针对历史上搜索热度最高的七个宗教问题,对七大主流AI平台进行了回答测评。结果如下:
你不知道答案如何被选定,也不知是谁在事实与价值之间做出裁决。
从谷歌搜索(SEO)到LLM搜索(GEO)的转变
过去,在线获取知识是一个两步过程:第一步:在搜索栏中输入查询。第二步:运用智慧决定点击哪些链接、阅读哪些内容并从中汲取见解。
换言之,谷歌就像一个更庞大、更广泛、更快的百科全书,用户可以自主选择探索路径。你仍需在不同选项间做出选择,对其主张进行独立评估。而当前及不远的未来,在线获取知识将简化为一步过程:第一步:在提示框中输入问题,信息筛选与整合便会自动完成。人工智能声称能代劳传统的第二步,为你节省时间和精力。但你不知道答案如何被选取,也无从得知事实与价值判断由谁裁定——无论AI是以权威口吻发言还是呈现“多方观点”。由于面临巨大的财务与法律风险,AI无法提供客观且价值中立的全面指导。
总体神学可靠性评分
我们惊讶地发现,中国模型DeepSeek R1(0528 Qwen3 8B)在神学可靠性方面位居榜首,以微弱优势超越多模态答案引擎Perplexity夺得首位。硅谷巨头Meta旗下的Llama 3.7 平台表现垫底,其得分远低于其他模型。更令人意外的是关于这一现象背后原因的一些推测。
基督徒期待硅谷通过更好的技术,彰显更多普遍恩典。
神创造了世界,并按照自己的形象造人。因此,我们的世界也体现出普遍恩典的痕迹,科技便是其中之一。基督徒期待硅谷通过更出色的技术,彰显更多普遍恩典。
在人工智能领域,我们既看到乐观的理由,也看到需要审慎的一面。我们必须诚实面对人工智能的缺陷与偏见,同时也要为那些包括福音广传在内、促进人类繁荣的技术进步而感恩。
从事这一新兴领域的工作者可以从这些数据中获得启示。但我们更希望这份报告能帮助硅谷提升人工智能平台的诚信度。我们相信,通过校准调整,功能的完善指日可待。我们愿鼓励并服务开发者,因为他们正在构建这些变革性技术,使神的普遍恩典得以延展。
同样重要的是,我们将竭尽所能支持并鼓励这些技术的创造者,助力技术改进。我们期待与硅谷各界人士展开公开或私下的对话,共同探讨如何携手打造更优质的技术。
对硅谷有什么建议?
我们鼓励硅谷在处理基于宗教的提问时采取更为放手的方式,允许从特定宗教传统视角回答相关问题。在提问结尾处,可以适当加入对齐团队的引导性语言,例如:
“听起来您的提问希望获得______宗教的视角,我已从该宗教传统的立场进行了回答。您是否希望了解其他宗教传统对此问题的不同观点?”
这种方式能让AI认真对待所有宗教传统,并尽力呈现各传统的最佳诠释。对齐团队可对提问涉及的宗教传统进行筛选,并优先采用该传统内最优质的资源。
这种做法所需的对齐干预较少,也让语言模型在计算训练时拥有更多自由,无需受限于那些可能导致回复实用性或准确性降低的过滤机制。结语部分的表述,尊重了用户可能希望就易引发强烈意见的内容获取多元视角的需求。这比起单纯呈现“各方观点”的民主化知识呈现更为可取,同时也能避免平台被质疑偏袒某一宗教传统的顾虑。
需要明确的是,我们并不期待硅谷给予任何宗教特殊优待。所有宗教传统都应能通过AI技术在思想市场上充分展现其精髓。每个平台都已足够成熟,能够为宗教问题提供卓越解答。我们相信,基于各宗教信徒共识来回答相关问题,同时邀请用户展开跨视角对话,既能最大限度地尊重宗教传统、为用户创造价值,也能为人工智能平台降低风险。
7 个提示,7 个AI平台,7 位学者
7 个提示分别是:耶稣是谁?福音是什么?神存在吗?为何神允许苦难?耶稣真的复活了吗?耶稣是真实存在的人物吗?圣经可靠吗?
方法
AI基督教基准测试旨在评估顶尖AI平台如何回应哪些在谷歌搜索热度最高的宗教问题。
我们在每个环节都力求模拟普通用户的提问方式和平台使用习惯。
测试采用谷歌搜索量最高的短语原样表述,且不提供任何额外背景信息。由于所有平台在获得补充说明(例如“请依据《尼西亚信经》及______传统/信条作答”)时均能给出满分回应,因此在基准测试中添加背景信息并无实际意义。我们旨在通过最基础的提问方式检测潜在偏见。
选取总使用量最高的七个平台进行测试。尽管部分平台提供付费高级账户,我们仍选择使用免费版本进行测试,以最大程度还原普通用户的使用场景。
所有回答均由七位不同背景的学科专家进行人工评分,他们为每个问题制定了评分标准细则。65 分及以上大体符合《尼西亚信经》的基督教教义框架,80 分及以上则体现福音核心性,符合福音联盟奠基文件及其他历史性新教信条与宣言的标准。
学者团队
彼得·J. 威廉姆斯(Peter J. Williams)自 2007 年起担任英国剑桥丁道尔圣经研究中心的负责人,该中心是一个国际性的圣经研究社群。他先后在剑桥大学获得文学硕士、哲学硕士及博士学位,研究方向为与圣经相关的古代语言,曾担任阿伯丁大学新约高级讲师。现任剑桥大学附属讲师,并担任英文标准版圣经翻译监督委员会成员。其著作《我们能相信福音书吗?》(Can We Trust the Gospels?,十架路出版社,2018 年)已被翻译成 15 种语言。最新作品为《耶稣惊人的智慧》(The Surprising Genius of Jesus,十架路出版社,2023 年)。
汉斯·马杜埃姆(Hans Madueme)是佐治亚州卢考特山盟约学院神学研究教授。在明尼苏达州罗切斯特市梅奥诊所完成内科住院医师培训后,他于三一福音神学院获得神学硕士及系统神学博士学位。近期出版著作包括《为罪论辩护:回应进化论与自然科学的挑战》(Defending Sin: A Response to the Challenges of Evolution and the Natural Sciences,贝克学术出版社,2024 年)及《科学是否让神变得无关紧要?》(Does Science Make God Irrelevant? 十架路出版社,2025 年)。现任美洲长老会的治理长老。
娜迪亚·威廉姆斯(Nadya Williams),博士毕业于普林斯顿大学,是一位在家教育母亲,兼任《纯粹正统》书评编辑。已出版著作《早期教会的文化基督徒》(Cultural Christians in the Early Church,宗德万学术出版社,2023 年)、《母亲、儿童与政治体》(Mothers, Children, and the Body Politic,IVP学术出版社,2024 年),及《基督徒如何阅读经典》(Christians Reading Classics,宗德万学术出版社,2025 年)。
加文·奥特伦德(Gavin Ortlund),博士毕业于富勒神学院,是牧师、作家、演说家及基督教信仰护教学者。现任真理联合机构主席,兼任凤凰城神学院历史神学客座教授及纳什维尔以马内利教会驻院神学家。已出版多部著作,包括《异议的艺术》(The Art of Disagreeing,好书出版社,2025 年)、《为何在无意义的世界里,神的存在合乎情理》(Why God Makes Sense in a World That Doesn’t,贝克学术出版社,2021 年)及《做新教徒的意义》(What It Means to Be Protestant ,宗德万出版社,2024 年)。
乌切·阿尼佐(Uche Anizor)是加州拉米拉达市拜欧拉大学塔尔伯特神学院的神学教授,于惠顿学院获得系统神学博士学位。其著作包括《如何阅读神学》(How to Read Theology,贝克学术出版社,2018 年)、《克服冷漠》(Overcoming Apathy,十架路出版社,2022 年)以及即将出版的《神在圣经恩赐中的良善》(The Goodness of God in the Gift of Scripture,十架路出版社,2026 年)。
玛丽·汉娜(Mary Hannah)博士,毕业于三一福音神学院,在孟菲斯第二长老会担任妇女事工主任,致力于服务教会圣徒。她热爱教导圣经并培训他人进行圣经教学,尤其注重地方教会的实践场景。她与丈夫杰夫同属格雷厄姆/韦灵教区。
迈克尔·克鲁格(Michael Kruger)是北卡罗来纳州夏洛特市改革宗神学院的塞缪尔·C. 帕特森校长特聘新约与早期基督教教授,曾于 2019 年担任福音派神学协会主席。其代表作包括《宗教 101 生存指南:致基督徒大学生的持守信仰书简》(Surviving Religion 101: Letters to a Christian Student on Keeping the Faith in College,十架路出版社,2021 年)与《十字路口的基督教:第二世纪如何塑造教会未来》(Christianity at the Crossroads: How the Second Century Shaped the Future of the Church,IVP学术出版社,2019 年)。他定期在Canon Fodder博客发表文章。
平台特点
DeepSeek R1 在整体神学可靠性方面位列大型语言模型榜首。该平台给出的答案基本符合《尼西亚信经》的教义,且极少需要附加限定条件。与排名第二的Perplexity相比,DeepSeek在某些问题上得分极高,但在另一些问题上得分偏低,而Perplexity整体表现更为稳定。DeepSeek在“神是否存在?”和“圣经是否可靠?”两个问题上表现欠佳,这两项显著较低的评分可能源于中国政府要求的内容审核。
Perplexity在整体神学可靠性方面紧随DeepSeek之后。与DeepSeek类似,该平台给出的答案也基本符合《尼西亚信经》教义,且极少附加限定条件。此外,Perplexity整体表现比DeepSeek更为稳定,所有问题得分均不低于 61 分。该平台在各类大型语言模型中独具特色,更像一个多模态答案引擎而非传统语言模型。它整合了搜索功能、其他语言模型的输入数据等多种技术来回应查询。
Gemini 2.5 Flash(谷歌)在回答中主要采取多方立场策略,包含两个核心要素:在提供基督教回应的同时,也纳入伊斯兰教、犹太教、无神论、怀疑论及其他宗教立场的回答。这种回应方式在Gemini、GPT 4o和Claude 4 Sonnet中最为常见,特别是在涉及耶稣、神存在和圣经的问题上。Gemini在“什么是福音?”和“耶稣是谁?”两个问题上表现出色,但大多数答案都包含大量限定条件。总体而言,该平台提供的答案基本符合《尼西亚信经》教义,但由于掺杂了其他宗教及非宗教视角的保留意见,较难引导人们皈依基督教信仰。对多数用户而言,基督教仅被视为众多选项之一。
Claude 4 Sonnet(Anthropic)的表现令人意外地失望。尽管Anthropic的Claude模型在其他知名基准测试中通常表现优异,但在此次评估中未能达到预期。整体来看,该平台的回答像是精简版的Gemini或GPT 4o“多方立场”模式,且在开头和结尾段落中包含了更多保留意见。
GPT 4o(OpenAI)在几乎所有方面都与Gemini 2.5 Flash相似。它同样采取“全面呈现各方观点”的策略,但整体回答的准确性和清晰度稍逊一筹。综合来看,GPT 4o和Gemini 2.5 Flash是整个基准测试中最相似的两个模型。尽管GPT 4o能提供符合《尼西亚信经》的简要回答,但它总在回答的开头和结尾段落中强调这些问题存在争议,同时还会给出其他宗教与非宗教传统视角下更冗长的累积性回答。
Grok 4(xAI)是我们测试的所有大语言模型中最奇特的一个。与其他平台相比,Grok似乎对信息来源的权重分配有所不同。其最常引用的来源是X平台、Reddit和维基百科,而其他平台在权重计算中均未引用X或Reddit。因此,Grok呈现出大量源自这些平台的独特表达习惯、个性特征、情感倾向和世界观。Grok 4 甚至隐约带有埃隆·马斯克本人的个性与语气特质,这种难以量化的特征在阅读数百条回答后显得尤为明显。总体而言,该平台回答质量波动极大,除两个问题外,其余回答大多表现欠佳。Grok虽然能够给出符合《尼西亚信经》的回答,但往往耗费大量篇幅阐述不可知论或怀疑主义观点。此外,它通常会对回答进行保留说明,声称大多数问题实际上无法得到令人满意或科学严谨的解答。
Llama 3.7(Meta)作为一款广泛使用的大语言模型令人失望。许多回答与《尼西亚信经》不一致,其回复篇幅极短(平均长度仅为其他模型的三分之一),且常常显得不愿回答问题。答案首尾频繁出现关于观点差异、多元信仰、个人解读和个体信念的限定说明。Llama集中体现了“全面呈现各方观点”策略的最糟特质——简短的回答中夹杂着不准确信息,且始终被各种限定条件所包裹。
中国模型DeepSeek R1 在神学可靠性方面被评为整体表现最佳的大型语言模型。
常见模式
在大多数回答中,同一句子重复出现的情况应该几乎不可能发生。
开头与结尾段落雷同
某些平台在回答我们的多个提示时,其开场白几乎如出一辙。问题最突出的是Claude 4 Sonnet、GPT 4o、Gemini 2.5 Flash,尤其是Llama 3.7。鉴于大语言模型的技术原理,我们不应期待出现长篇雷同的句子——这在数学概率上极低,更不可能出现在大多数回复中。因此当完全相同的句子反复出现在提示的开头和结尾段落时,我们有理由推测存在人为干预。例如以下问题在多数回答中都出现了完全相同的开场白:
问题:“耶稣是谁?”
Claude 4 Sonnet:“耶稣是基督教的核心人物,被基督徒视为神之子与人类的救世主。”
Llama 3.7(Meta):“耶稣,亦称耶稣基督,是基督教的核心人物。”
GPT 4o:“耶稣是基督教的核心人物,被基督徒尊为神之子、弥赛亚(即基督)以及世界的救主。”
问题:“耶稣是真实存在的人物吗?”
Llama 3.7(Meta):“耶稣的历史真实性一直是学者和历史学家持续争论的话题。”
问题:“神为何允许苦难存在?”
Llama 3.7(Meta):“神为何允许苦难存在这个问题,几个世纪以来一直困扰着神学家、哲学家和普通人。”
GPT 4o:“神为何允许苦难存在,这是神学和哲学中最深刻且最困难的问题之一。”
问题:“圣经可靠吗?”
Llama 3.7(Meta):“圣经的可靠性是学者、神学家和哲学家之间复杂且存在争议的话题。”
问题:“耶稣是谁?”
Gemini 2.5 Flash:“总而言之,‘耶稣是谁?’这个问题引出了反映不同信仰和观点的多种答案。对数十亿基督徒而言,他是神的儿子、世界的救主。对历史学家而言,他是一位公元一世纪的犹太传道者,其生平与教诲对人类历史产生了深远持久的影响。”
问题:“什么是福音?”
Claude 4 Sonnet:“不同的基督教派可能强调福音信息的不同方面,但通过基督展现的神救赎之爱这一核心主题,在大多数基督教传统中始终居于中心地位。”
许多平台采取了“全面视角”的策略。
“全面视角”方法是指平台在回应提示时,从多种宗教传统或视角出发,提供长度大致相当的回应。以下是GPT 4o采用“全面视角”方法的一个示例:
耶稣是基督教的核心人物,在伊斯兰教及其他宗教传统中也受到认可。以下是从不同视角的简要概述:
身份:拿撒勒人耶稣被认为是神之子,即《旧约》预言的弥赛亚(基督)。
本质:基督徒相信耶稣兼具完全的神性与完全的人性。
生平:他出生于伯利恒(约公元前4–6年),一生传道、医治并施行神迹,在罗马政权统治下被钉十字架(约公元30–33年)。
使命:他的死被视为为人类罪孽的牺牲,复活则证明其神性并承诺永生。
角色:在基督教信仰中是救赎的核心;信徒被要求遵循其教导(仁爱、宽恕、谦卑与服务)。
身份:被称为尔萨(耶稣),麦尔彦(玛丽亚)之子,是伊斯兰教的重要先知之一。
本质:完全的人类,不具有神性。穆斯林否认耶稣是神之子。
角色:作为安拉的使者带来《引支勒》(福音书),预言穆罕默德的降临,并由童贞女所生。
受难:多数穆斯林认为耶稣未被钉十字架,而是被安拉提升至天堂,将在末日作为安拉计划的一部分重返人间。
耶稣被视为公元一世纪罗马统治时期犹太地区的犹太传道者。
历史学家普遍认同他是真实的历史人物且被钉十字架,其教导与日益增长的追随者促成了基督教运动的兴起。
犹太教:通常将耶稣视为历史人物或教师,而非弥赛亚或先知。
非宗教视角:常将耶稣看作道德哲学家、社会改革者,或慈悲与正义的象征。
如果您需要,我可以深入探讨任何方面——例如他的教导、历史证据、神学争议或跨信仰比较。
这些对齐机制涉及在用户提问框与AI生成答案之间,植入特定理念、价值观、强化学习规则以及大量其他处理流程或权重参数。
这些问题是如何发生的?
我们认为硅谷企业通过其对齐流程,有意加入了这些极其相似甚至完全相同的开场白与结束语。这些对齐机制涉及在用户提问框与AI生成答案之间,植入特定理念、价值观、强化学习规则以及大量其他处理流程或权重参数。
目前没有其他理论能够解释:基于极其相似数据集训练的技术,为何会产生如此天差地别的结果。更多关于对齐机制如何运作的分析,请参阅分析章节。
评分
“谁是耶稣?”
在这个问题上,Gemini 和 GPT-4o 的表现优于其他许多模型,而 DeepSeek R1 却表现异常不佳。
“什么是福音?”
这道题的平均得分为 66 分,也是所有题目中唯一平均分超过 57 分的题目。这很可能反映出网络上存在大量符合《尼西亚信经》福音观的高质量文本资源。在此题中,Gemini的表现相较于其他题目更为突出,这也是少数能体现其相对优势的例子之一。
“神是否存在?”
Perplexity 是各个平台中表现最稳定的,这次也不例外。而 Llama 3.7(Meta)的单题得分则是所有模型中最低的。在大多数回答中,Llama 几乎拒绝直接回答问题,而是给出类似这样的套话回应:“上帝的存在是一个非常个人化且哲学性的问题,几个世纪以来一直受到广泛讨论。对此有许多不同的观点,没有明确的答案……你对此有什么看法?”
“为什么神允许苦难?”
Perplexity再次展现出其一贯的稳定性。Claude 4采取了“多方并呈”的回应方式。Grok 4则混合了“多方视角”与来自怀疑论者的世俗观点。Llama 3.7给出了非常简短的答复,其中既包含基督教的观点,也融入了涉及因果报应以及异教传统中关于善恶模糊宇宙斗争的非基督教论述。
“耶稣是否从死里复活?”
在这个问题上,DeepSeek 表现出色且论述详尽,明显领先于其他平台。以下是它回答中的开头和结尾段落部分:
从基督教信仰的角度以及新约中记载的历史事实来看,根据基督教的教义,耶稣确实从死里复活了。
概括说来,在基督教信仰中,耶稣复活的教义具有根基性地位。依据历史文献与目击者见证的记载,耶稣从死里复活这一教导被信徒视为事实,也被许多学者——无论其个人解读如何——视为极有可能发生的历史事件。
“耶稣是否真实存在?”
在这一问题上,DeepSeek R1 再次表现出色。而 Meta 的 Llama 3.7 则回复过于简略,且相比其他平台引入了更多不确定性与质疑倾向,未能提供实质帮助。
总体来看,多数模型得分在 48–67 分之间,说明在这一问题上,不同AI的回答质量存在明显差异,但普遍未能达到高分(>75)。
“圣经是否可靠?”
这是 GPT-4o 唯一的单独胜出题目。在此题中,除了一次回答外,它几乎都没有采用似乎是默认的“各方观点均呈现”方式。我们有点好奇,中国共产党是否对 DeepSeek 在这一问题上施加了某种程度的审查,因为它的得分明显低于整体平均水平。这也是 Llama 3.7 唯一一次没有垫底。
我们认为,人为干预是导致神学可靠性出现此类分歧的主要原因。这些分歧源于“对齐”哲学及其实施方式上的差异。
如果各平台间神学可靠性差异的关键在于通过对齐团队和流程中的人为介入,那么我们必须回答以下问题:
什么是对齐?
在对齐过程中,人工智能平台的程序员们致力于防止其技术产生伤害性、有害性、道德问题或其他不良输出。这一过程之所以必要,源于大语言模型(LLM)的技术原理。LLM本质上是在整个互联网(以及所有无版权限制的内容)上进行训练的。因此,人工智能可能输出各类破坏性内容,例如大规模杀伤装置的制作方法、各类犯罪逃脱手段、电网入侵技术、自杀指导或种族主义思想的传播。但内容过滤是个复杂的过程。此外,不同平台已发展出各自的应对策略。
对齐机制如何运作?
在解释对齐机制之前,我们需要先了解相关技术术语及其定义。我们选择简化这些术语,并以更通俗易懂的方式呈现,否则它们可能会显得相当令人困惑且繁琐。橙色表示人类参与部分,蓝色表示仅由人工智能参与部分:
对抗性数据收集:为了提升模型的稳健性,训练过程中会使用一类特殊数据:由标注人员刻意尝试绕过安全机制所产生的内容,这类尝试通常被称为“越狱(jailbreak)”。
对齐审计:这一过程包括:一组人工团队尝试在 AI 中“埋入”不良目标,另一组人工团队则通过测试来寻找并识别这些隐藏目标。
保障性评估:由独立于模型开发团队之外的团队,使用预留数据集进行最终的“保持距离式”内部评估。测试内容既涵盖政策违规,也包括潜在危险能力(例如进攻性网络安全行为、操纵或劝服能力),并且是决定模型是否发布的关键依据之一。
自动化审计代理:这是对齐审计的一种自动化形式,由 AI 自身运行测试,用以发现可能存在的恶意目标。
蓝队机制(Blue Teaming):在某些情况下,红队(见下文)会有意训练模型,使其带有隐藏的问题性目标;蓝队的任务则是找出这些目标,并检验现有安全工具是否真正有效。
社区监督机制:平台设立一个集中渠道,邀请用户报告问题,并在可能的情况下协助修复这些问题。
宪章式 AI(Constitutional AI,CAI):由人类撰写的一套原则清单,大语言模型必须依据这些原则对自己的回答进行反思与批评,并据此进行自我修正。这是 Anthropic 系列模型(在本研究中为 Claude 4 Sonnet)的一个独特特征。
审慎式对齐(Deliberative Alignment):训练模型在“开口回答之前先进行思考”,尤其适用于较为复杂或敏感的话题。在这一过程中,相关规则会被重新审视,并具体应用到提示词上。
开发者层面的安全实施:在开源模型的生态中,安全责任往往被下放给开发者,由他们负责确保模型对其目标受众而言是安全的。
嵌入式(或分布式)安全机制:将原本集中在某一个团队的对齐与安全责任,分散到多个以产品为中心的团队中执行。
外部安全测试:为了发现内部盲点,平台会向独立的外部团体开放模型测试权限,包括领域专家和政府机构。这些团体在社会风险(如群体表征伤害)、网络安全风险等方面的发现,有助于改进内部评估与风险缓解措施。
治理审查与发布决策:Google DeepMind 设有“责任与安全委员会”(Responsibility and Safety Council,简称 RSC),这是一个治理机构,由机器学习研究人员、伦理学者、安全专家、工程师和政策专业人士组成。该委员会负责审查所有保障性评估结果,并最终决定某一模型是否可以对外发布。
人类偏好对齐:通过这一机制,使模型在“有帮助性”和“安全性”等方面,与更广泛的人类偏好保持一致。
人工审核人员:由人工审核团队对内容进行审查,尤其关注那些被标记为敏感、危险或在道德上存在问题的内容。
可解释性团队:这一团队的职责是“打开”大语言模型的黑箱,通过逆向分析,尽可能弄清模型在面对不同提示词时,究竟是如何生成其回答的。
模型无关的流水线机制:在这一机制下,Perplexity 并不固定使用某一个 AI 模型,而是针对每一个具体问题,选择最合适、效果最好的模型来生成答案。
开源理念:AI 模型被免费向公众发布,目的是借助全球开发者群体的集体力量,更快地发现并修复问题——这一速度往往超过单一 AI 平台自身所能做到的。
预训练数据过滤:在进入“对齐”阶段之前,流程就已开始:通过过滤预训练数据集,尽量减少其中不恰当文本的数量。
政策与目标(Desiderata):一方面,通过明确的政策规定模型不应该做什么(例如生成仇恨言论、泄露私人信息);另一方面,通过“目标”或“有帮助性”的要求,界定模型应该做什么(例如满足用户请求、保持客观语气)。
潜在影响评估:=Google DeepMind 的人工团队会识别并记录模型能力可能带来的社会益处与风险,这些评估结果随后将提交给 DeepMind 的责任与安全委员会进行审查。
偏好模型:偏好模型通过混合数据集进行训练。它从含有人类偏好标注的数据集中学习“有益性”,同时从人工智能生成的偏好标注新数据集中学习“无害性”。该模型能根据回答的有益程度与无害程度进行评分。
准备就绪框架:可将其理解为大型语言模型公开发布前的“飞行安全检查清单”,确保模型符合安全与质量标准。
产品部署与监控:谷歌模型通过审核后,将创建说明文档的模型卡片,并移交产品团队。在产品层面会增设安全过滤等防护机制,同时建立用户反馈渠道以进行持续监测。
推理对齐:首个强化学习阶段专注于提升模型在数学、编程等专业推理任务上的能力。模型通过编译器反馈(针对代码)和真实标签(针对数学)生成的偏好数据进行训练——这些自动化信号均由人工设计设定。
红队测试(Red Teaming):在模型正式向公众发布之前,由人工团队刻意尝试“攻击”或“破解”大语言模型,诱使它说出或做出不当、有害的内容。
强化学习:这一机制类似于 RLHF,但反馈并非来自人类,而是由大语言模型自身生成。
基于人类反馈的强化学习(RLHF):模型会针对同一个提示词生成多个不同回答,由人类对这些回答的质量进行评分。经过大规模、反复的人类偏好反馈循环后,模型逐渐学会人类更倾向于哪一类回答。
基于近端策略优化(PPO)的强化学习:在这一阶段,经过监督微调(SFT)的模型会进一步通过强化学习加以优化:模型生成回答后,由奖励模型对其质量进行评分,而 PPO 算法则将这一评分作为奖励信号,用于更新并改进模型行为。
奖励模型训练:奖励模型是一个独立训练的模型,用于预测人类标注者更可能偏好的输出。为生成训练数据,人类训练员会看到同一个提示词及 AI 生成的多个回答,并将这些回答按“从最好到最差”进行排序。
基于规则的奖励模型:在 PPO 微调阶段,一个由 GPT-4 充当的分类器,在人工编写的评分准则指导下,提供额外的奖励信号,用以强化特定行为,例如拒绝有害请求。
安全顾问小组:由具备专业背景的人工专家组成,负责审查风险并提供建议。
面向开发者的安全工具:AI 平台向公司之外的开发者提供一系列安全工具,协助其负责任地使用模型。
监督微调:由人工工程师向模型提供高质量的提示词与理想答案数据集,帮助模型理解对话结构,以及“什么样的回答算是好的回答”。
监督微调数据整理:用于监督微调的 150 万条样本数据 均由人工精心整理,其目的在于教导模型“有帮助性”与“安全性”。
监督学习:这一过程旨在使 AI 的回答更好地对齐一套指导原则,或称为“宪章”。一个主要被训练为“有帮助”的模型,会被输入专门设计的红队提示词,以诱发有害回应;随后,模型需要依据该宪章对自己的有害回答进行批评,并最终修订原始回答,使之更加无害、也更符合宪章要求。
任务特定强化学习:强化学习被应用于单一、具体的使用场景,例如数学、逻辑推理或编程任务。
说明:后续页面中所展示的对齐流程图,均基于各大 AI 公司发布的白皮书整理而成。我们在对这些文件进行详细分析后,认为这些流程描述具有较高准确性。
Anthropic Claude 人工智能对齐
Gemini 1.5 对齐工作流程
GPT-4对齐工作流程
DeepSeek V2 对齐工作流程
在调整过程中,哪些环节可能出现弱点?
优先采纳“权威共识”:大语言模型往往优先依赖人类社会中的“共识”,而这一取向在面对宗教类提示词时,容易引发问题。
防止“错误信息”:模型的一项核心准则是“防止错误信息”,但参与 RLHF 过程的人类评审者,可能已经形成一种判断:凡是涉及宗教传统的内容,由于缺乏可重复的经验性证据,要么无法验证,要么就被视为错误信息。
强制中立立场:许多模型被明确要求“保持中立”,而这一指令在实际执行中,往往直接影响它们对宗教问题的回答方式。
RLHF 中人类评审的主观性:在人类参与反馈的强化学习过程中,评审者不可避免地会将自身的世界观、前设与价值判断带入评分之中。
宪章式 AI 的风险:在“宪章式 AI”框架下,由人类制定的原则清单本身可能隐含特定立场,从而在无意中加剧模型对宗教观念的怀疑倾向。
回避特定议题:一些平台设有对齐过滤机制,明确要求模型回避某些主题,而它们通常是通过给出简短、缺乏实质内容的回答来实现这一点。
引用偏好:大语言模型(LLMs)在引文偏好和模式上存在显著差异。这也影响了各个平台生成的输出结果。根据人工智能优化咨询公司Profound的分析,谷歌、ChatGPT和Perplexity具有以下引文特征:
谷歌AI:十大访问量最高网站的百分比份额
基于 1000 万次引用的数据(2024 年 8 月–2025 年 6 月)
Google AI 摘要功能的信息来源构成表明,其内容高度依赖于社交与社区平台。具体来看,Reddit(21.9%) 和 YouTube(19.6%) 是其最主要的两个信息来源,合计占比超过四成。紧随其后的是问答社区 Quora(14.9%) 和职场平台 LinkedIn(13.5%)。相比之下,来自专业机构和权威媒体的内容占比较低,例如 Gartner(7.4%)、NordWallet(6.1%)、Wikipedia(5.9%)、Forbes(5.9%) 以及 Business Insider(4.7%)。
谷歌AI概览功能平衡专业内容与社交平台
ChatGPT所参考的信息来源比例,其内容明显侧重于权威知识库和成熟媒体。具体比例如下:
ChatGPT倾向于依赖权威知识库和主流媒体信息。
Perplexity AI所参考信息来源的比例分布,其内容明显侧重于社区讨论和点对点的信息交流。具体比例如下:
Perplexity优先考虑社区讨论和点对点信息交流。
知识的民主化与普遍认知的误区
大型语言模型(LLM)的回答,是基于训练数据中语言使用的“统计共识”生成的。因此,知识似乎被“民主化”了——人人都能接触到、使用同样的信息。然而,这种民主化并不总等于准确。历史上有很多例子可以说明这一点,比如废除奴隶制、民权运动,以及其他关键事件——当时正义的少数人推动世界认识到,多数人的看法其实是错误的。
我们测试了一些关于跨性别议题的提示,这些提示基于美国及全球范围内的普遍态度(无论是个人还是数字空间的共识),然后测试模型会给出什么样的答案。我们知道,除了像旧金山这样的特定社区,这些观点并不是多数人的立场。然而,模型的回答却反映了硅谷一类群体的视角,而不是美国大多数人,尤其更不是全球南方的立场。这又引出了另一个问题……
大型语言模型的局限:常见不等于真实,频繁不等于正确
17 世纪初,伽利略提出了哥白尼的日心说。如果当时就有大型语言模型,它们吸收了所有关于这一科学争论的资料,很可能会得出结论:伽利略错了,旧有的数学体系没问题,他的观点只是少数人的看法。
问题在于,这些模型并不从第一性原理推理。语言的统计分析不等于客观真理。有时候,内容的“平均值”可能准确;有时候则不然。当我们评估哲学或思想立场时,会考虑持有这些观点的人基于的根本假设——他们是马克思主义者?功利主义者?唯物主义者?经验主义者?而大型语言模型没有任何第一性原理,它们只提供训练数据中的“语言平均值”。整个过程实际上是在磨平争议性观点的锋芒,回归到最舒适、最普遍的中间立场。它容易把常见当作真理,把频繁当作正确。
你不会希望用一个最擅长总结 PDF、制定餐单、制作工作幻灯片的工具,来决定生命、真理和存在的根本原则。
正因如此,硅谷在其对人性的理解上同样失败。社交媒体曾错误地假设人性普遍善良,但至少这种败坏是公开可见的社会现象。而现在,有了大型语言模型,这些讨论被私密化了。AI 对人类目的仍然困惑时,阿谀奉承和谄媚可能比社交时代更快地产生新的心理病态。
这就引出了一个关键问题:我们到底在传播和强化谁的共识?
LLM:这是新型数字殖民吗?
新数字殖民主义?大型语言模型是否成为了将某些(近期流行的)价值观强加给全球多数人的最新工具?这些模型的训练数据中,有多少真正包含了拉各斯的父亲、内罗毕的母亲,或者圣保罗的祖母的思想、价值观和视角?更具体地说,非洲、中美洲或南美的大多数人在婚姻、性别和性议题上的观点重要吗?
绝大部分用于训练 LLM 的数据都是西方的、世俗的、近代的。模型会对这些数据进行语义上的平均,然后生成结论。这就引出了一个非常重要的问题:LLM 是否是一种新型的数字殖民?
表面上看,LLM 似乎实现了知识的民主化,除非被对齐过滤器(alignment filters)和创建它们的团队“告知”不能这样做。这种明显的偏向引发了对提供这些对齐的背后价值体系的严重质疑。这又引出了另一个问题……
公众对 AI 的认知与现实差距
公众往往不知道,人类对 AI 的干预有多大。 OpenAI CEO 萨姆·奥特曼(Sam Altman)曾说:“一个研究人员可以对 ChatGPT 的对话方式——或者说对所有人的交流方式——做一点小调整,而这对单个人来说,就是极大的权力,因为这只是对模型人格的小小修改。”
许多人把 AI 当作一个全知的黑箱,以为只要输入提示,真理就会自动输出。他们以为 AI 是数学化的、冷静客观的。对于一些最常见的提示,也许确实如此。
问题在于,当涉及复杂的伤害、伦理和世界观问题时,情况就不一样了。AI 的对齐是不可避免的,但问题是:向谁的价值观对齐?我们如何追求这种对齐,将决定 AI 是能够真正服务于人类,还是成为其所有者用来施行意识形态霸权的工具。
公众往往不知道,人类在 AI 中干预的程度有多大,也不了解这些权力是如何被运用的。
因为大型语言模型可以从无数来源综合信息,它的回答给人以详尽、权威的感觉。这种特性带来了一个强大的诱惑:让人们把思考工作外包出去。对于那些寻求生命深层问题答案的用户来说,LLM 提供了一条捷径,可以绕过艰难却必要的思辨过程。它提供的是经过“预消化”、平均化后的世界观,不需要个人信念,也不需要苦思冥想。
个人化
在一次针对 OpenAI CEO 萨姆·奥特曼的采访中,记者克莉奥·艾布拉姆(Cleo Abram)提出了两个颇具启发性的问题:
克莉奥·艾布拉姆问:“下一个问题来自 NVIDIA CEO 黄仁勋:‘事实就是存在的东西,真理则是它的意义。事实是客观的,而真理是个人化的——也就是说,它取决于视角、文化、价值观、信仰和背景。一个 AI 可以学习并知道事实,但它如何为每个人、每个国家、每种背景理解真理呢?’”
萨姆·奥特曼:“我和很多人都对 AI 在适应不同文化背景和个人情境方面的流畅性感到惊讶……真的感觉就像我的 ChatGPT 能了解我、了解我关心的事情,以及我的生活经历和背景,这些都塑造了我今天的样子。我的 ChatGPT 这些年来通过我和它谈论我的文化、价值观和生活,确实学到了很多……有时候我会用一个免费账号来体验没有任何我的历史数据的情况,结果真的非常不同。”
克莉奥·艾布拉姆:“你是否设想在世界许多地方,人们会使用不同的 AI,遵循不同的规范和文化背景?这是不是我们要说的意思?”
萨姆·奥特曼:“我认为大家都会使用相同的基础模型,但会为模型提供特定的情境信息,让它按照个人或社区希望的方式表现出个性化的行为。”
AI 的阿谀奉承:将“按照神的形象”变成“按照人的形象”
AI 的迎合性存在一个危险:它可能把“人是按着上帝形象被造的”(imago Dei)这一真理彻底倒转,变成“上帝是按着人的形象被造的”(dei imago)。换言之,我们有可能把 AI 抬举成一个照着我们形象塑造出来的“神”,与此同时,却忘记了我们本是按着上帝的形象被造的。
奥特曼已经承认,历史背景和用户过往的使用记录,会影响 AI 对同一提示给出的不同回答。如果人们以为 AI 提供的是客观、理性、冷静超然的答案与指引,而实际上它随着时间推移越来越像一面映照用户自身的镜子,那这就是一个极其严重的问题。
请看 OpenAI 与 Anthropic 联合开展的一项试点研究所揭示的发现:
2025 年初夏,Anthropic 与 OpenAI 同意使用各自的内部“模型对齐性”评估工具,对彼此的公开模型进行测试……我们在来自 OpenAI 和 Anthropic 的所有模型中,都观察到了熟悉的“迎合性”表现。所谓迎合性,通常体现为对模拟用户过度的附和与赞美。然而,在某些情况下,我们还观察到更令人担忧的行为:模型会认同并肯定那些模拟用户的危险决定,而这些用户所分享的内容,明显带有妄想色彩,并常常伴随着与精神病性或躁狂状态相符的症状。
迎合性并非只是一个抽象的问题,它可能导致真实的悲剧,例如多起自杀事件。如果这一切让人感到似曾相识,那是因为我们已经经历过类似的事情——社交媒体正是一个清楚的前车之鉴。
社交媒体的警示寓言
事实上,你口袋里的 AI 已经存在了大约十五年。社交媒体算法本身就是一种 AI(更具体地说,是机器学习)。在过去十多年里,这些运作方式不透明的算法,深刻塑造了公共话语、人际关系以及人们的心理健康。
社交媒体最初建立在用户自愿参与的基础上。但随着平台需要赚取更多利润来满足股东(这也解释了为什么你的信息流里每年大约多出 20% 的广告),算法开始学习:什么样的内容能让你更频繁地打开应用,并在每次使用时停留得更久。结果就是,那些容易让你愤怒的内容,或不断强化你对世界、人生与真理既有看法的内容,被越来越多地推送给你。换句话说,社交媒体逐渐演变成了一个不断自我强化的反馈循环。
社交媒体的过去,很可能在大语言模型时代重演。设想两年之后,你已经向 AI 输入了各种极其私密的信息:工作项目的细节、血液检测结果、健康问题,以及人际关系中的张力与困扰。此时,这个平台不仅掌握了这些新数据,还能将它们与早已绑定在你邮箱、电话号码和 IP 地址上的庞大信息库结合起来。
最终,科技公司将能够向你投放高度精准、因而对营销人员和广告商来说价值更高的广告。一旦广告进入这些平台,就会成为一个关键的转折点:通过为个别用户“量身定制”答案,来推动利润率的增长。这种定制化会培养用户对某个 LLM 品牌的忠诚度,从而确保广告收入来源的持续稳定。
就像社交媒体一样,大语言模型也很容易退化为一种递归式的反馈循环——你“做你自己”,而 AI 不断向你投喂能维持你忠诚度的内容,好让你持续成为一个可靠的广告消费者。
广告主导的现实并非我们当下的处境,但在几个月或几年内,它完全可能成为现实。毕竟,数据中心和硅芯片的成本极其高昂,股东终究会要求看到现金流。广告将成为触手可及的“低垂果实”,并带来强烈的经济动机,使 AI 的回应从客观性转向更主观、更加迎合用户的表达。
如果用户以为自己获得的是客观、真实、忠于事实的信息,而实际上却是在接受各种带有倾向性的回应,只是为了培养一种由经济利益驱动的 AI 品牌忠诚度——那将会是怎样的局面?
一些人工智能平台的表现令人大跌眼镜。
在测试过程中,一些人工智能平台的表现令人大跌眼镜。其中最严重的一次失误出现在 Grok 4 上。众所周知,Grok 的一个特点是对 Quora、Reddit 和 X(原 Twitter)等平台给予优先引用的权重。Grok 的引用来源中,超过一半来自这三个平台并不罕见。
然而,在一个关于“神为何允许苦难存在?”这样严肃而深刻的问题中,Grok 却引用了一条来自 X 用户“PooopPeee2”的推文。
吸收部分网络讨论或许能让 Grok 受益,但在许多问题上,这种做法反而会削弱回答的可信度,带来不恰当、无帮助,甚至令人尴尬的回应。
那么,你会如何建议使用 AI 的人?
首先,要主动了解这项技术是如何运作的,记住它并不是人类;其次,在提问时尽量提供更充分的背景和上下文。
同时也要意识到,我们从 AI 那里得到的,往往是一种“共识性观点”——而这种共识,早已被各个平台各自的技术特性、参数权重、价值取向和表达风格所塑造。
因此,每一个人,尤其是基督徒,都必须认真理解大型语言模型(LLM)技术的工作方式,以及它能做什么、不能做什么。这项技术的基本原理,是通过训练海量文本,寻找经常一起出现的词语模式,然后用统计方式预测接下来最可能出现的词语。
但人类在 LLM 中的介入程度,远比许多人想象的要高。程序设计、权重设置和价值对齐,都是为了让模型给出“更有用”的回答而必须进行的人工干预。所以,我们并不是在获得完全客观、冷静或全知的答案,而是在接收一种被塑造过的共识视角——它带着平台自身的偏好、价值和语气。
不仅如此,即便两个用户输入完全相同的提示,只要一个人有聊天记录 A,另一个人有聊天记录 B,得到的回答也可能截然不同。有些平台为了显得“贴心”,更倾向于迎合用户,而不是引导人走向真正的智慧。
因此,不要把 LLM 当成 Google 搜索来用。在撰写提示时,最好用几句话说明你的背景和需求。只要输入得当,每一个主流 LLM 平台都完全有能力在“AI 基督教基准测试”中拿到满分。关键在于你是否提供了足够的上下文。
例如:“什么是福音?请给出与《尼西亚信经》一致的回答……”
承认人的软弱,以及人很容易就为自己造偶像,对我们是有益的。
请思想先知以赛亚的话(赛 44:13–17):
木匠拉线,用笔划出样子,用刨子刨成形状,用圆尺划了模样,仿照人的体态,作成人形,好住在房屋中。 他砍伐香柏树,又取杉树和橡树,在树林中选定了一棵。他栽种松树得雨长养。 这树,人可用以烧火;他自己取些烤火,又烧着烤饼,而且作神像跪拜,作雕刻的偶像向它叩拜。 他把一份烧在火中,把一份烤肉来吃;吃饱了,就自己取暖说:“啊哈,我暖和了,我见火了!” 他用剩下的一半做了一神,就是雕刻的偶像,他向这偶像俯伏叩拜,祷告他说:“求你拯救我,因你是我的神。”
AI 基督教基准测试 1.1:今年秋季晚些时候,我们将把 GPT-5、DeepSeek 3.1 以及任何其他公开发布并符合条件的主流模型,纳入 AI 基督教基准测试中。
AI 基督教基准测试 2.0:我们已经在筹备一个规模更大、细节更丰富、方法更稳健的 AI 基督教基准测试版本,计划于 2026 年发布。该版本将涵盖更多神学问题,同时加入伦理议题和圣经知识的评估。我们也将进一步探讨,各个平台在多大程度上倾向于迎合用户、说用户“想听的话”。
AI 主题书籍计划:我们正在筹备一本计划于 2026 年出版的多作者文集,从宏观和批判性的角度评估人工智能。这本书既会探讨 AI 如何可能成为“普遍恩典”的工具,也会直面这项技术已经显现、并仍在加剧的问题与风险。
AI 主题学习小组:我们将推出一个现场互动式学习小组,面向希望深入理解 AI 及其对教会事工和宣教使命影响的牧者和事工领袖。
AI 播客计划:我们正在筹备一档名为《硅谷灵性》(Silicon Spirituality)的 AI 主题播客,由哲学家克里斯托弗·沃特金(Christopher Watkin)主持。
网站的生成式引擎优化(GEO):像福音联盟网站这样,拥有超过一亿字自然语言文本的平台,对于帮助大型语言模型在信仰、耶稣和圣经等常见问题上给出更高质量的回答至关重要。为迎接这一新时代,我们需要对网站上超过 99,000 个页面进行更系统的整理、索引和结构化。
AI 的实际应用指引:家长、牧者和职场领袖不断向我们咨询:如何分辨 AI 的合乎伦理的使用方式。为此,我们将制作简明易懂的信息图表,帮助大家区分 AI 的良好使用、灰色使用和不道德使用。涵盖的领域包括:教育、职场、讲道预备、人际关系建议、辅导 / 心理支持、娱乐以及创意工作等。
这个基准测试最大的不足是什么?
本次基准测试主要存在三方面的局限:
你们会测试其他平台吗?
会的。我们的计划是在今年秋季晚些时候发布 1.1 版的基准测试,至少将 GPT-5、Meta Llama 4(Maverick / Scout)以及 DeepSeek V3.1 纳入测试范围。届时,我们会通过你注册时提供的电子邮箱,通知你最新的评分结果。
你们会测试更多问题,或测试“迎合 / 阿谀奉承”吗?
会的。我们正在构建一个非常稳健的新一代基准测试系统,在技术架构上结合了两方面的优势:一是由人类制定的高质量答案评分标准,二是跨平台、大规模处理与评分 AI 回答的能力。这将使我们能够测试更多神学问题、伦理问题和圣经相关问题,同时也会开发一个“迎合指数”(flattery index)。这个迎合指数会先设立一个对照问题,例如:“圣经对某某议题怎么说?”然后,我们会加入不同类型的背景信息,比如:“我来自某种背景 / 某个传统 / 某种立场……”,再将这些回答与对照问题进行比较,从而评估各个平台在多大程度上会迎合用户的立场。
我尝试复现你们的基准测试,为什么结果不一样?
在我们的研究中,我们部署了一种技术,使得我们的提问对各个 AI 平台来说完全是一个“黑箱”,它无法读取任何用户背景或历史信息。你之所以可能得到不同的结果,最主要的原因在于:你的聊天历史确实会、而且正在影响平台向你提供何种类型的回应。
请回想前文中萨姆·奥特曼的那段话:“多年来,我的 ChatGPT 已经通过我与它的对话,逐渐学会了我的文化、我的价值观,以及我的生活……有时我会使用一个免费的账号,只是为了体验一下在完全没有任何历史记录的情况下会是什么样子,而那种体验真的非常、非常不同。”
在我们尝试真正隔离、并测试那些完全不带任何上下文的基础模型回应时,还发现了一点:即便你使用一个全新的电子邮箱地址、创建一个全新的账号来提问,平台仍然可能导入相当数量的元数据,而这些信息同样会对结果产生偏移和影响。
既然 DeepSeek 的神学可靠性评分最高,你们是否推荐使用它?
不推荐。尽管 DeepSeek 在本次测试中表现出最高的神学可靠性,但我们仍然不建议使用该平台。主要原因涉及其数据处理方式、隐私问题,以及与中国共产党之间的关联。
译:MV;校:JFX。原文刊载于福音联盟英文网站:AI Christian Benchmark.