回到主页

DCL活动回顾:DCL“前沿研读沙龙”2025年秋季学期第1期成功举办

· DCL前沿研读沙龙

清华大学国际关系数据与计算实验室2025年秋季学期第1期“前沿研读沙龙”于2025年9月13日在腾讯会议平台顺利举行。

本期读书会由清华大学国际关系学系硕士研究生郑晏、北京外国语大学国际关系学院硕士研究生汪嘉豪和中国社会科学院大学博士生潘顺之主讲。本期有两篇文章,分别是实证文章《拒不承认:为何名义上的秘密行动可避免冲突升级?》(Denying the Obvious: Why Do Nominally Covert Actions Avoid Escalation?),以及AI领域文章《人类对等性能LLM智体的宝可梦对战》(POKÉLLMON: A Human-Parity Agent for Pokemon Battles with Large Language Models)。主讲人分别介绍了两篇文章的主要内容,并对实证文章的统计分析过程进行了复现。本期读书会由清华大学国际关系数据与计算实验室主任漆海霞老师主持,并邀请到外交学院外交学与外事管理系讲师刘哲希、清华大学交叉信息院硕士施晨欣作为点评嘉宾。

01 主要内容

首先,潘顺之同学介绍了实证文章的研究问题、研究设计和实验细节。这篇文章研究的问题是:为何国家在实施显而易见的敌对行动后仍然选择否认?这种“名义上的秘密行动”(nominally covert actions)是否能够缓解被袭国家公众要求升级冲突的压力?作者提出了四组假设来指导研究,主效应假设(H1)认为,当攻击方否认敌对行动而非公开承认时,目标国公众对升级军事响应的支持度会降低,即“名义上的秘密行动”可以起到缓和冲突的作用。H2-H4分别对应声誉机制、心理侮辱机制和责任不确定性机制三种因果路径,名义秘密行动对公众偏好的影响,分别通过声誉受损感、被侮辱感和责任确定性这三种变量的变化,起到中介作用。

接着,潘顺之同学介绍了实证文章的实验设计部分。作者采用三项随机控制的调查实验,以确保因果识别。实验使用美国公众样本,情景为虚构伊朗/卡塔尔在波斯湾袭击美国商船(实验1、实验2),并控制证据量(实验3),处理组对应攻击国否认责任,对照组对应承认责任。被试者依次回答关于冲突升级响应偏好(因变量)的问题,以及关于国家声誉、受侮辱感、责任不确定性的提问(三种机制变量),并填写一系列被试特质问卷,如民族主义、沙文主义、鹰派倾向,对政府媒体信任等。三项实验的基本结构相似,但各有侧重,通过逐步变化情境来验证结果的稳健性和边界。

02 实证分析

潘顺之同学介绍了实证文章的数据准备和变量部分。首先,作者创建实验分组变量,根据调查中“攻击国是否否认责任”的答案,创建一个清晰的二分变量,“否认”记为1,“承认”记为0,用于后续的回归分析。接下来计算因变量,将四个升级冲突的选项,即谴责、制裁、空袭和战争的答案标准化并取平均值,生成一个连续的“升级偏好”指数,避免多重共线性问题。再之后是处理中介变量,将三个关于国家声誉的问题标准化后取平均值,对受侮辱感和责任确定性这两个变量,保持其原有的有序分类变量格式,因为有序逻辑回归可以直接对其进行处理。最后是处理控制变量和人口学变量,对诸如好战性、民族优越感、对媒体信任程度等变量重新编码或标准化,并创建因子变量用于分类。

Section image

表一 变量与操作化

随后,郑晏同学根据作者提供的源代码,对中介分析过程进行复现。作者使用的是由Imai, Keele, Tingley, Yamamoto (2011)等人开发的mediation分析方法,在R语言中通过mediation包实现。

Section image

图一 中介分析部分复现代码

Section image

图二 中介分析部分复现代码

Section image

表二 原文(左)与复现结果(右)完全一致

表1和表A6的区别在于,虽然用的都是同样的数据,但控制变量不同。表1的控制变量为个人特质,表A6的控制变量为人口统计学属性。根据图表展示的结果,表1显示:所有平均因果中介效应(ACME)均显著非零,表明三个中介变量均产生实质影响,H2b、H3b和H4b假设全部成立。其中,责任方确定性的中介效应最强——在否认条件下,责任方确定性下降可解释32%的升级意愿衰减,声誉关切下降解释22%,侮辱感知降低解释10%。表A6的结果与表1类似,这说明尽管控制变量组合完全不同,但ACME显著性的核心结论没有改变。所有中介路径在两种模型设定下依然显著,说明其结果是稳健的,是一个相对可靠的研究发现。

此外,在稳健性检验部分,作者讨论了研究结论对其他国家/样本的适用性,并通过被试特征的交互分析检查效果在不同群体中的稳健性。文章总计测试了5个特质(鹰派倾向、民族沙文主义、对他国信任、对媒体信任、对政府信任)在3个实验、4个结果变量上的交互,共45个模型。结果显示,总共只有6个模型显著,而且分布无规律。这种“罕见且不一致”的显著性说明“否认”的降温效果对大多数不同特质的人都是相似的。换言之,无论鹰派或鸽派、民族主义强或弱、信任官方程度如何,美国公众对名义秘密行动的反应大体一致。这个发现令作者乐观地认为,其结果很可能不局限于美国特定人群的心理结构,在其他国家公众中依然适用。

其次,由汪嘉豪同学负责对全文主要的分析过程进行复现,基本重现了全文的图表。

Section image

图三 主回归复现代码

Section image

图四 原文主回归图表

Section image

图五 复现后的主回归图表

随后,郑晏同学对本篇实证文章进行了简要的评论。第一,作者的研究揭示了名义秘密行动为何能避免升级:因为公众并非纯理性地根据事实行事,外交中的面子、情感和认知信念会影响他们对报复的支持,提出“否认”的确是一种低成本、有效的策略来避免冲突升级。第二,变量的操作化。中介变量测量均通过主观量表测量,容易受到社会期望偏差、情绪波动或理解差异的影响。第三,多重共线性问题。作者提出三个看似独立的中介机制,但三个中介变量:责任不确定性、声誉担忧和受辱感在理论上和统计上可能存在高度相关性,但研究未能充分检验和处理该问题。

最后,汪嘉豪同学首先从大型语言模型(LLMs)的发展历程切入,回顾其在自然语言理解、上下文推理和策略模拟方面的突破,指出当前AI在博弈和策略环境中的应用已从静态分析迈向交互式决策,并阐述了POKÉLLMON项目在这一趋势中的独特价值。他强调,AI要实现“类人表现”,不仅需要强大的文本生成能力,更需在策略一致性、长期博弈和稳定性方面实现突破。

在模型结构部分,汪嘉豪详细介绍了POKÉLLMON采用的上下文强化学习(ICRL)、知识增强生成(KAG)、一致性动作生成(CAG)等核心技术,并通过模块图展示其如何结合GPT-4的推理能力与宝可梦博弈环境,实现决策链条更长、信息整合更充分、策略更稳定。

Section image

图六 POKÉLLMON运行机制

在实验与结果部分,汪嘉豪列举了模型在与人类及传统AI对战中的表现,分享了在多轮迭代和真实对抗环境下AI胜率提升、战术多样化、幻觉和恐慌减少等关键数据,显示POKÉLLMON在短期和长期博弈能力上已接近人类水平。他还介绍了模型在技能选择、HP管理、攻击策略等方面的创新机制。

Section image

图七 对战胜率

03 活动总结

潘顺之同学介绍了实证文章的实验设计、数据准备和变量操作化部分。郑晏同学讲解和复现了实证文章的因果机制、中介分析和稳健性检验。汪嘉豪同学复刻了实证文章的主回归分析和讲解了AI领域文章。三位主讲人还指出了这两篇文章的主要贡献与局限,并展望未来。

在讨论环节,同学们针对控制变量的选择、因果机制的逻辑性、ACME模型的适用性、LLM模型架构与推理机制等提出了各自的看法。主讲人对此进行了一一回应。

在点评环节,漆海霞老师肯定了主讲人准备充分、讲解细致、逻辑严密,并鼓励同学们以此为契机,持续跟进学术前沿,加强方法创新与理论提升,推动国际关系领域对人工智能应用的探索与深化。刘哲希老师也指出,本次的实证文章在因果机制的论证上仍有待加强,AI领域文章的创新性较高,但仍需在实际应用中的持续迭代与验证来体现。施晨欣同学则对AI领域文章的专业术语和研究对象选取的意义进行了补充说明,并帮忙改正了错误信息。本期沙龙不仅加深了师生对大型语言模型在国际关系和博弈研究中的理解,也为青年学者提供了学术交流和思想碰撞的平台。