回到主页

DCL前沿研读沙龙2025年秋季学期第4期:印度外交行为与态度驱动因素分析

清华大学国际关系数据与计算实验室2025年秋季学期第4期“前沿研读沙龙”于2025年12月13日在腾讯会议平台顺利举行。

本期读书会由来自外交学院国际关系研究所的三位硕士研究生哈惟玉、陈梁茹、赵墨涵共同主讲。本期有两篇文章,分别是实证文章《非本土总理?通过领导层出访轨迹衡量印度外交政策取向》(Nonresident Prime Ministers? Measuring India’s Foreign Policy Orientation via Leadership Travel),以及AI领域文章《形式化-LLM:融合形式化语言与自然语言构建可控的LLM基础智能体》(Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents)。主讲人分别介绍了两篇文章的主要内容,并对实证文章的统计分析过程的进行了复刻。本期读书会由清华大学国际关系数据与计算实验室主任漆海霞老师主持,并邀请到清华大学国际关系研究院博士后张晟昊老师作为点评嘉宾。

01 主要内容

陈梁茹同学首先介绍了文章的研究背景。随着印度的崛起,其在国际事务中一直寻求声望与认可,当前学界对于印度在对外交往中是修正主义倾向还是维持现状的倾向存在分歧,这篇文章旨在就这一问题展开深入探析。

研究通过分析1992年至2019年间印度总理与外长的出访数据,运用逻辑回归模型对两个问题进行探究:一是印度高层进行访问的驱动因素。二是通过出访的模式探析印度对当前国际秩序的态度。文章的研究假设涵盖战略利益、原则导向、国内政治与外交惯例四个维度,通过基准模型验证了战略利益是印度外交行为的主要驱动因素,在此基础上,文章通过“对齐模型”进一步检验印度是倾向于支持现有国际秩序,还是具备修正主义倾向。

02 实证分析

赵墨涵同学系统阐述了文章的实证研究设计,其核心是检验四大类理论假设。她首先明确,研究的因变量为二值变量,即“印度总理或外交部长在某一年是否访问了某个特定国家”。自变量则根据四大理论视角进行量化操作:战略利益类包括对象国的军费开支、对印武器出口额、贸易依存度、人均GDP及是否为G7/G20成员等;原则导向类测量与印度在联合国投票的相似度及是否属于“全球南方”(G77);国内政治类涵盖印度国内的失业率、通胀率、选举周期、克什米尔暴力事件及海外侨民规模;外交惯例类则考察过往访问记录。这些变量共同构成了检验印度外访驱动因素的量化基础。

Section image

表1:研究假设图表

陈梁茹同学讲解了用于检验上述驱动因素的基准模型。她介绍,研究采用逻辑回归模型对1992-2019年的数据进行分析。实证结果清晰地支持了战略利益假说:印度领导人出访显著偏向其主要出口市场、经济发达国家以及国际体系中的主要大国。相反,原则导向假说基本被否定,领导人并未表现出对“全球南方”国家的特殊偏爱,与印度在联合国立场相似或同属“全球南方”阵营,并未能显著提升一个国家获得访问的几率。在国内政治方面,影响则显得有限且具选择性:选举周期显现出清晰的影响轨迹,总理在大选年倾向于留守国内,而外长则可能在大选前一年加紧外交出击以积累政绩;较高的失业率与外长出访增多存在关联,这或许可以被解读为一种对外寻求经济出路的努力。然而,诸如通货膨胀、克什米尔冲突等其它内部变量,则未能显示出决定性作用。最为有趣的是,关于外交惯例的假设被数据明确拒绝,领导人的访问模式并非对往年行程的简单重复,这表明每一次出访决策更像是一次基于当前利益的独立评估,而非官僚体系的惯性滚动。陈梁茹总结道,基准模型的发现高度一致且稳健,它确认了一个至关重要的前提:印度高层的双边访问绝非随意或例行公事,而是一种承载着清晰战略信号的、具有高度目的性的政治行为。

Section image

表2:基准模型

哈惟玉同学进一步讲解了旨在揭示战略意图本质的对齐模型。该模型旨在破译这些战略意图背后所隐藏的印度对当今国际秩序的根本立场。她在基准模型基础上,新增了四组变量以评估印度对现有国际秩序的态度:(1) 是否偏爱访问新兴大国(挑战者倾向);(2) 是否回避受联合国制裁的国家或专制政权(现状维护者倾向);(3) 是否重视美国或俄罗斯的军事盟友与伙伴(分别体现亲美或亲俄倾向);(4) 是否回避美国的敌人或接触中国的敌人(体现地缘战略考量)。回归分析显示了一个复杂图景:印度领导人显著偏爱访问新兴大国,外长更常访问专制国家和俄罗斯的武器客户,这体现了挑战者倾向;但同时,他们又回避受联合国制裁的国家,总理也避开受美国制裁的国家,这体现了现状维护者倾向。结论指出,印度外交呈现一种务实主义的“混合”取向,虽包含挑战现状的元素,但并非彻底的修正主义。哈惟玉分析认为,印度的战略意图在于,在总体接受现有国际框架以保障其发展利益的同时,积极通过与新兴力量及俄罗斯等伙伴的合作来推动多极化,并尤其注重在地区层面构建针对中国的战略制衡。因此,文章的最终结论超越了非此即彼的二元标签,描绘出一个作为精明机会主义者和多面行为体的印度:它深刻嵌入现行体系并从中获益,却又时刻保持着高度的战略自主性,并灵活地在不同议题和地理区域间调整其策略,以最大化自身的影响力与行动自由。这一实证发现警示我们,任何对印度外交政策简单化的理解,都可能严重误判这个崛起大国的复杂本质与深远意图。

Section image

表3:对齐模型

03 研究前沿

在第二篇文章《形式化-LLM:融合形式化语言与自然语言构建可控的LLM基础智能体》(Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents)的讲解中,哈惟玉同学介绍了本文的研究背景、Formal-LLM的核心思想及实验过程,赵墨涵同学介绍了Formal-LLM的生成流程,陈梁茹同学介绍了Formal-LLM的典型的应用案例,并总结了Formal-LLM的理论意义和发展方向。

作者提出,由于LLM的内容生成过程无法控制,当前基于LLM的代理经常生成无效或不可执行的计划,这损害了生成计划的性能,并破坏了用户的信任。因此,研究界逐渐意识到:要让 LLM 真正具备可靠的规划能力,必须引入硬约束(hard constraints)机制,以形式化的可验证方式控制其生成,使其规划不仅“看起来合理”,而且“结构上合法并可执行”。在此背景下,Formal-LLM提出了一种全新的框架,将形式语言如上下文无关文法 CFG 与下推自动机 PDA引入 LLM 规划过程,通过形式化语法约束与自动机引导,使得 LLM 能够在语义推理的同时保持严格的结构可控性,从而显著降低计划失败率,提升任务成功率与可信度。

在对Formal-LLM的生成流程进行了介绍前,作者首先对其引入的形式语言CFG和PDA的工作原理进行了介绍。CFG(Context-free Grammar),即上下文无关文法,用于描述一类结构化的、可递归生成的形式语言。在Formal-LLM中,CFG用于确保LLM生成的计划符合工具调用和数据类型的硬性约束,从而避免无效或不可执行的计划。上下文无关文法由四个组成部分构成:终结符、非终结符、起始符号以及生成规则。文章同时介绍了CFG的运行逻辑。

Section image

图1:CFG运行逻辑

PDA(Pushdown Automaton),即下推自动机,是有限状态自动机(FA)的增强版,增加了一个栈(Stack) 作为辅助存储器。它可以识别上下文无关语言(CFL)。在PDA中,栈用来存储符号。初始时,栈中有一个特殊的符号(比如Z,称为栈底符号)。PDA的运行过程中,会根据转移函数对栈进行操作。

Section image

图2:PDA示例

之后,通过受控生成,PDA从起始状态开始,根据当前状态和栈顶符号,列出可行动作。若PDA进入“死胡同”,如工具使用限制导致无法继续或者选择了导致后续无可用路径的分支,启动回溯机制,回到上一步,尝试其他分支。模型记录每一步的状态与栈信息,避免重复错误,确保只要存在有效计划,就一定能生成。

Section image

图3:Formal-LLM 的生成流程

在实验环节,作者使用 OpenAGI提供的工具链测试环境,对多个 LLM 进行评估,包括 GPT 系列与多个开源大模型。OpenAGI基准任务根据其输出类型和真实标签类型进行分类(任务1、2和 3)。然后,针对不同的任务类型,采用不同的指标来衡量性能。实验采用以下大语言模型学习方案:零样本学习(Zero),即直接将提示输入到大型语言模型中;少样本学习(Few),即在提示中提供了一组高质量的示例,每个示例都包含目标任务的输入和期望输出;任务反馈强化学习(RLTF),即应用文本约束生成执行计划,并将其性能作为奖励,通过强化学习优化大型语言模型;正式语言模型加强化学习任务框架(F-LLM+RLTF),即在 RLTF 之上应用了正式语言模型框架,且不生成文本约束。旨在提升计划质量。分别将其与正式语言模型(F-LLM),即本文的提出的框架进行任务表现的对比。

Section image

图4:三种闭源大语言模型在不同设置下的基准任务表现

Section image

图5:三种开源大语言模型在不同设置下的基准任务表现

实验系统性地验证了 Formal-LLM 框架在提升LLM智能体规划可控性方面的有效性、通用性与实用性。通过形式化语言的引入,不仅显著提升了计划生成的成功率,还为LLM在高可靠性应用场景中的落地提供了新的思路与方法论支持。

研究对现实生活中的规划场景进行了实验,包括日常计划、烹饪食谱和风险管理。主要是 GPT-4 作为骨干模型,对零学习模式和 F-LLM 学习模式在实际任务中的表现进行了定性分析,显示 Formal-LLM 不是增强语言能力,而是增强决策结构本身。

Section image

图6:案例研究

总之,Formal-LLM 开启“可验证智能”的新范式,传统 LLM 的一个根本缺陷是缺乏可验证性(verifiability),Formal-LLM 的出现,使研究者首次能将形式化方法融入 LLM 推理,对 LLM 规划进行语法级约束与验证,让LLM的行为可预测、可控制、可证明。未来,Formal-LLM将推动大模型从“概率智能”向“可控智能”进一步发展。

04 活动总结

在讨论环节,同学们围绕两篇文章展开了热烈的交流。对于第一篇文章,同学们就文章的创新性和局限性提出了自己的看法,指出了这篇文章关注到了新兴大国外交行为的特点,弥补了既有研究对于新兴国家外交行为研究的不足,具有一定的选题意义。同时指出尽管印度高级官员的出行模式可以表明其相对优先事项,但影响外交出访的因素和机制是复杂多样的,因此对于文章的结论部分应当谨慎看待。对此,主讲人进一步认可了同学们提出的文章可能存在的部分局限性,但也肯定了文章在方法论上的价值——通过构建原创、长期、细粒度的外交访问数据集,对诸多变量进行了系统化操作,从而为我们研究新兴大国的外交行为提供了方法借鉴。对于第二篇文章,讨论主要聚焦于文章所提出的Formal-LLM的具体原理以及其突破性意义。在点评环节,漆海霞老师充分肯定了三位同学准备充分、分工明确、讲解严谨,也肯定了大家就文章展开的个人思考。她鼓励同学们要通过观察既有研究可能存在的缺陷和改进空间,持续思考在论文写作中我们可以注意的方向。张晟昊老师指出本次的实证文章在理论创新上有所欠缺,但其所具备的选题意义值得肯定。通过本次沙龙活动,同学们进一步增加了对于大语言模型的了解,也在交流和思考中收获了更多针对定量研究和选题方向的启发。