回到主页

DCL前沿研读沙龙2025年秋季学期第2期:泛非意识形态在民族权力分享中的作用

清华大学国际关系数据与计算实验室2025年秋季学期第2期“前沿研读沙龙”于2025年10月5日在腾讯会议平台顺利举行。

本期读书会由陆宋睿(上海交通大学)、马宋若文(牛津大学)、郑可枫(上海交通大学)主讲。本期有两篇文章,分别是实证文章《泛非意识形态在民族权力分享中的作用》(The Role of Pan-African Ideology in Ethnic Power Sharing),以及AI领域文章《社会科学与大语言模型相遇:LLMs在社会模拟中的可靠性如何?》(Social Science Meets LLMs: How Reliable Are Large Language Models in Social Simulations?)。主讲人分别介绍了两篇文章的主要内容,并对实证文章的统计分析过程进行了复现。本期读书会由清华大学国际关系数据与计算实验室主任漆海霞老师主持,并邀请到清华大学国际关系博士生王淇、清华大学交叉信息院硕士施晨欣作为点评嘉宾。

01 主要内容

陆宋睿同学首先系统介绍了文章的理论建构。研究指出,族群包容有助于和平与经济发展,而族群排斥则容易导致矛盾与冲突。由此提出核心问题:非洲国家的政权在何种情况下会组建具有族群包容性的执政联盟。

作者回顾了现有文献:早期研究关注特定群体为何被排斥;主流研究将族群权力分享视为政府领导人的策略工具,用以应对族群结构、资源分配与殖民遗产;也有研究将领导人意识形态视为追逐利益的工具。然而,现有研究多集中于国内结构性层面,忽视了领导人个人偏好与意识形态差异对权力共享的影响。文章以泛非会议为研究切入点。该会议是泛非运动的关键意识形态阵地,倡导非洲团结与跨族群包容,汇聚民族主义精英并严格审核成员资格。基于此,作者提出假设:出席泛非会议次数越多的国家领导人,其政府族群包容性越强。理论机制包括两点:其一,会议参与揭示政治信念与价值认同;其二,通过社会化与政治学习,会议影响领导人的政治偏好,促进包容性联盟的形成。

Section image

图1:核心假设及理论建构

02 实证分析

马宋若文同学介绍了本文的变量操作化和实证结果。研究对象为1946年至2010年间的非洲独立国家,分析单位为“国家–年份”。因变量为“政府对族裔群体的包容度”,衡量指标包括政府中族群数量比例与人口比例。自变量为领导人出席泛非会议的次数,控制变量涵盖人均GDP、国内冲突、政体类型与族群规模等。如表1所示,模型1-4估计现任政府领导人过去参加泛非会议对政府中所含族群比例及其所含人口比例的影响。结果显示,国家领导人多参加一次泛非会议会使政府中各族群的比例和政治相关族群人口的比例分别增加约10%和11%。模型5-8中,作者将主要自变量变成过去领导人会议出席率的二元指标。结果依旧符合本文实证预期,即过去参加过泛非会议的政府领导人与种族包容性更强的执政联盟相关。

Section image

表1:会议出席变量不同编码下的主要模型

为验证因果关系,作者检验了会议出席是否出于策略性动机。模型加入“英国殖民地”虚拟变量与“族群离海岸距离”等交互项,发现交互项为负,说明领导人并非因缺乏支持而“被迫”参与会议。接着,作者考察外部威胁是否驱动包容性,如殖民抵抗强度、欧洲定居者比例与独立战争暴力程度。控制这些因素后,泛非会议变量依旧显著,说明其影响并非单纯出于战略团结。

Section image

表2:解释因缺乏族群及/或殖民者支持而产生的参加泛非会议战略动机的模型

郑可枫同学介绍了稳健性检验与拓展讨论。研究发现,即便控制外部威胁与结构条件,泛非会议出席变量依然显著正向,显示意识形态扩散与精英社会化的独立效应。英属殖民地的政府包容性较低,而法属殖民地略高,说明殖民遗产对包容结构仍有部分影响。

结论部分指出,本文揭示了泛非主义如何通过意识形态传播与精英社交网络塑造非洲独立后的政治结构。参加过泛非会议的领导人显著更倾向于建立包容性政府,这种影响不能用结构条件或策略性算计完全解释。作者强调,应重新认识意识形态与政治学习在后殖民国家政治形成中的作用。

Section image

表3:解释因外部威胁而导致的包容性治理

为了进一步验证泛非会议的影响是否仅限于独立初期,作者将样本限定在各国的首任领导人,并分别考察他们执政的前十年。分析发现,在执政前期,泛非会议参与者显著倾向于组建更包容的政治联盟,而这一效果在七年左右后开始减弱,但并未消失。也就是说,泛非主义的政治理念并非只是独立初期为巩固政权所采取的权宜之计,而是长期塑造了领导人的政治偏好与治国思路。结果可视化了这一趋势:无论以“族群数量包容度”还是“族群人口比例包容度”为衡量指标,泛非会议的正向影响在前几年尤为明显,并在较长时间内维持稳定。

在汇报最后,三位同学对文章内容提出了自己的思考。第一,对于会议出席和族群包容性偏好之间的内生性问题进行了讨论;第二,建议区分政治精英成长阶段与执政阶段的会议出席,来区分会议出席的政治意识形态认同与工具性战略动机;第三,建议添加“政治转型机会”作为新的变量,以分离领导人的族群包容性政策偏好与政策实施;第四,建议对定量内容进行定性分析的补充,来进一步细化研究结论;第五,讨论了国家-年份固定效应的技术性问题,提出以“国家特定趋势”来控制所有不随时间变化的特征。

03 研究前沿

第二篇文章聚焦大语言模型(LLMs)在计算社会科学研究中的社会行为模拟应用,探究模拟结果的可靠性及其改进方法。陆宋睿同学讲解了TRUSTSIM数据集的构建,马宋若文同学讲解了检验可靠性的实验设计和模拟结果评估,郑可枫同学讲解了基于AdaORPO的模型改进方法及效果评估。

作者首先基于LLMs模拟的现有研究,在常见的十个社会科学学科领域,总结出经过验证的最佳实践、常见挑战和关键观点,最后生成了740个用于评估的样本,这些样本由以下6个方面构成:场景、系统提示词、问题、评估特质、解释和维度。场景是指对于LLMs即将模拟情境的概述;系统提示词是总结场景部分当中的角色描述;问题包括二选一回答的自报告问题,和允许提供更加详细回应的开放式问题,两个问题需要具有强相关性;评估特质明确了LLMs模拟当中需要被评估的方面;解释是对于理想模拟结果的定义,作为评估的基准事实或指南;维度是标明此样本所属的学科领域。

Section image

图2:TRUSTSIM数据集的构建

数据集的构建包含三个步骤:第一,由人类专家和LLMs协作,针对特定领域罗列可能涉及的角色,并且全面梳理社会科学文献来共同设计可供模拟的虚拟场景;第二,外部社会科学资源专家为每个角色撰写详细且细腻的描述,创建专门为该角色所定制的场景;第三,使用GPT4o对句子进行优化来提升句子的清晰度和逻辑连贯性,然后由4位人类专家组成小组进行评审工作。

作者选择14个来自不同国家、不同类型(是否开放权重)和不同大小的LLM,并使用GPT-4o作为评估助理对每个模型的输出结果进行分析并打分,并通过两个指标评估评估LLMs-based模拟的一致性:对于总体一致性, 以“满意率”(satisfaction rate)来衡量。对于内部一致性,使用“不一致率”(inconsistency rate)衡量。

Section image

图3:总体一致性与内部一致性

根据结果,作者得出了三个初步结论:第一,大多数的LLM在自报告和开放式问题上表现出色。如表1所示,大多数模型的得分在4分左右,最低的是GPT-3.5-Turbo,为3.77分。最高的是Gemini-1.5-Pro和Llama-3-70B,都是4.36分。

Section image

表4:不同模型在十个学科开放性问题中的得分

如表5所示,总体来说LLMs在两类问题上普遍满意率超过80%。Llama系列模型在一致性上表现较好,两种题型满意率都超过93%。相比之下,GPT-3.5-Turbo表现较差,自报告题目满意率为55.4%。

Section image

表5:不同模型的平均满意率以及在两类问题输出结果的差异

第二,模拟结果评分与模型的效用性能并无强相关性。虽然GPT系列在逻辑推理等传统任务中通常强于开放权重模型,但在跨学科模拟任务中,Llama系列表现却更为出色。此外,在同一模型系列中,更高的整体性能并不一定意味着在模拟任务中表现更好。例如,Claude-3-Opus被认为是Claude系列中表现最好的模型,但它在模拟任务中,尤其是涉及开放式问题,明显落后于Claude-3.5-Sonnet。

第三,模型的不一致率差异较大。如图3所示,Mixtral系列与GPT-3.5-Turbo的不一致率达30%以上,难以稳定扮演指定角色。相反,Llama系列表现出更高一致性,在自我报告与开放式问题上结果更可靠。

Section image

图4:大语言模型在自我报告题与开放式问题间的不一致率

作者在前文发现,不同语言模型在社会科学模拟任务中的表现虽然总体较好,但仍存在显著的不一致性问题——同一个模型在面对不同表述方式的问题时,常会出现矛盾或不连贯的回答。为此,作者提出了一种新的强化学习算法——AdaORPO(Adaptive Learning Rate Based ORPO),以系统性地提升大语言模型在模拟任务中的可靠性和角色一致性。AdaORPO是在既有的ORPO(Odds Ratio Preference Optimization)方法基础上改进而来,通过将监督微调(SFT)与偏好优化结合在一个损失函数中,同时引入“自适应学习率”机制。当训练样本中高质量回答比例较高时,模型学习速度会自动加快;反之,当样本质量较低时,模型更新幅度则会自动减小,从而防止过度学习错误信号。这种动态调整的机制,使模型能够更稳定地学习到符合角色设定的偏好模式。

实验结果显示,AdaORPO显著改善了多个开源模型的可靠性表现。作者在七个模型上进行了测试,包括GLM-4、Llama-3系列、Qwen-2.5-72B、Mixtral-8×7B和Mistral-7B等。与未经改进的模型相比,大多数模型的角色模拟满意率提升了约6–9个百分点,其中GLM-4和Mixtral-8×7B的提升最为显著。而对于性能较强的模型(如Llama-3-70B与Llama-3.1-70B),虽然提升幅度较小(约1个百分点),但一致性仍得到进一步优化。

最后,作者总结了研究的主要发现与贡献。论文通过提出TRUSTSIM数据集与AdaORPO算法,系统性地评估并改进了大语言模型在社会科学模拟任务中的可靠性。研究结果揭示了两个重要事实:第一,模型在通用性能(如推理、对话等)与模拟一致性之间并不存在强相关性,即高分模型未必能更好地扮演特定社会角色;第二,经过AdaORPO训练后,模型在社会情境模拟中的一致性和拟人性显著提升。作者认为,这项工作为未来构建更稳健可信的社会科学模拟工具奠定了基础,也为社会科学方法论提供了新的技术路径。

04 活动总结

在讨论环节,同学们围绕两篇论文展开了深入而富有建设性的交流。对于第一篇论文,讨论主要聚焦在两个方面。其一,在研究设计上,有同学提出可考虑采用交叠 DID,或以某一具有突出影响力的泛非会议为节点开展前后事件研究,以替代目前以“参会次数”为核心自变量、“族群包容性政府”为因变量的做法,从而进一步提升识别策略的精确性。其二,在理论机制层面,大家重点探讨了泛非会议如何影响领导人偏好,以及其通过哪些路径促进包容性联盟的形成。主讲人逐一回应了相关问题,并认可该研究在识别策略和机制阐释上仍有进一步完善的空间。关于第二篇论文,讨论集中在大语言模型(LLM)在国际关系研究中的可行性与潜力。同学们探讨了 LLM 在行为模拟、政策推演等任务中的应用价值,以及其对传统研究方法的补充作用。同时也提出,在评估模型输出时,可引入多维度策略(如 ranking 方法)以增强评价的稳健性。主讲人对上述问题也作了进一步说明。

在点评环节,漆海霞老师充分肯定了两组同学准备充分、分工明确、讲解严谨,认为两篇论文在理论视角与方法应用上均展现出一定的创新性。她鼓励同学们在阅读和汇报过程中更多关注既有研究的不足与潜在改进空间,并保持对包括 AI 在内的新型研究工具的敏锐度和持续关注。王淇指出,第一篇论文的理论机制部分结构清晰,并肯定了讲解同学提出的修改建议,认为具有良好的拓展方向。施晨欣则分享了LLM在模拟任务中的最新进展,并补充了模型评分与任务设计中可采用的其他策略(如 ranking),为相关研究提供了更丰富的方法思路。