清华大学国际关系数据与计算实验室2025年秋季学期第3期“前沿研读沙龙”于2025年11月9日在腾讯会议平台顺利举行。本期读书会由南京大学国际关系学院博士生曾庆鸣、清华大学国际关系学系博士生龙泰格以及南京大学国际关系学院博士生齐曦媛共同主讲。
本期读书会聚焦两篇跨学科研究。第一篇为发表于International Organization的《达摩克利斯的开关:信息外部性的互联网治理逻辑》(Damocles's Switchboard: Information Externalities and the Autocratic Logic of Internet Control)。第二篇为发表于AIES 2024会议的《人与机器:兵棋推演中专家人类与语言模型的行为差异》(Human vs Machine: Behavioral Differences between Expert Humans and Language Models in Wargame Simulations)。三位主讲人围绕两篇前沿学术论文进行了深入解读,并对实证文章的统计分析过程进行了复现。本期读书会由清华大学国际关系数据与计算实验室主任漆海霞老师主持,并邀请到清华大学国际关系研究院博士后张晟昊老师作为点评嘉宾。
01 主要内容
曾庆鸣同学首先介绍了互联网治理的背景和文章的研究动机。互联网治理与数字贸易长期被分开研究,但二者密切相关。互联网治理仅是政治行为,也产生经济分配后果。同时,缺乏统一框架解释互联网控制对国内经济与国际关系的影响。因此,文章基于思想、数据和知识三个要素,构建了互联网治理产生信息外部性的理论模型。数据作为生产要素,用于生产产品与收益。知识作为创新驱动力,通过提升全要素生产率影响产出。互联网控制不可避免地影响数据流与知识流,产生信息外部性。
在互联网治理产生信息外部性的基础上,文章进一步区分了数据正外部性和知识负外部性的双重机制。一方面,数据正外部性是指,互联网治理使国内数据密集型企业获得更多本土数据,国内数据密集型企业获得更多本土数据,国内平台获取更大数据供给,促进企业增长与营收提升。另一方面,知识负外部性是指,互联网治理使国内知识密集型研究者获取外部知识受阻,研究效率下降、研究质量下降。特别是,对文献依赖度高的领域冲击和影响更大。文章基于上述讨论提出待验证的两个假设。
图1:互联网治理产生信息外部性
02 实证分析
曾庆鸣同学解释了文章研究设计部分数据来源、变量操作和处理的思路和初步准备过程。文章首先以“是否属于数据密集型企业”和“是否属于知识密集型学科”作为自变量。针对数据正外部性的检验:从数据依赖层面,文章利用美国专利局分类中含“Data”关键词的技术类别,计算企业专利中数据相关比例,是否属于数据密集型企业;从行业属性层面,文章根据NAICS行业分类中是否含“Internet”关键词进行编码,确定其是否属于互联网企业。针对知识负外部性的检验:文章章利用Web of Science每页引用量(References per page)衡量各学科研究对外部知识和文献的依赖,确定知识密集型学科类别。然后,文章在以季度营收作为企业层面的因变量,控制企业资产总额规模、负债总额杠杆等变量。文章以论文被引次数(Forward citations)作为学科层面的因变量。
图2:因变量处理与操作化
图3:数据合并、变量处理的准备
龙泰格同学介绍了这篇文章的实证策略。在实验设计的理想状态下,应该随机将样本分配到有互联网治理和没有互联网治理的环境中,并比较两者在表现绩效上的差异。然而,现实中,这两种情况无法在同一时空下存在,因此研究者无法观测“反事实现象”。这一限制使得这一研究设计可能受到内生性的困扰。为此,作者先是尝试论证刺激变量的外生性,即中国的互联网治理的设计初衷与数据密集型企业并不直接相关。然而,即使刺激变量是外生性的,刺激接受变量(treatment uptake variable)也必须保证外生性。在本文语境下,刺激接受变量就是数据密集型强度和知识密集型强度,这两个变量决定了企业受到互联网治理冲击的概率。但是,现实中各个公司的数据和知识密集程度已是既定存在。为排除非随机分配导致的内生性,作者针对不同的研究假设,采取了不同的统计分析手段进行实证检验。
在基准模型中,作者采用了“面板匹配+双重差分”的手段检验互联网治理对于中国密集型企业与非密集型企业影响的差异。第一步,面板匹配。作者利用这一手段,将2014年互联网治理实施前10个季度为匹配时间范围,为每家数据集密集型企业匹配数量尽可能多的非数据密集型企业,并使它们在总资产、总负债和总收入上得到合理平衡。第二步,双重差分。作者利用这一手段,估计了2014年互联网治理实施后10个季度内,该政策对于中国数据密集型企业的影响。实证结果显示,截至政策刺激后第10个季度,数据密集型企业的收入比非数据密集型企业平均增长26%。这一积极影响早在第3个季度开始显现,并在第7个季度趋于稳定。
图4:互联网治理对于中国密集型企业与非密集型企业影响的差异
在此基础上,作者还进行了一系列延伸分析。第一,平行趋势检验。平行趋势假定是执行双重差分分析的前提。检验结果显示,刺激节点前10个季度范围内处理组和控制组没有显著差异。第二,安慰剂检验。作者抽取与“数据密集型企业”数量相同的“非数据密集型企业”,指定为“虚构”实验组,并将未被抽取的“非数据密集型企业”指定为控制组。在此基础上重新匹配并计算处理效应。结果显示两者并没有显著差异。这排除了随机波动导致的虚假效应(spurious treatment effect)。
图5:主模型(面板匹配+双重差分)复现部分
此外,作者还进行了稳健性检验,具体包括(1)更改面板匹配的时间范围;(2)变换匹配的加权处理方式;(3)剔除“数据密集程度”小于中位数的样本,以及(4)更换“数据密集程度”的测量方式。检验结果均与基准模型保持一致。
接下来,作者采用添加年份固定效应的“三重差分”模型来检验互联网治理对于中国数据密集型企业和美国数据密集型企业影响的差异。“三重差分变量”由——1)“是否为数据密集型企业”的二元变量;2)“是否处于刺激时期”的二元变量;以及3)“是否为中国企业”的二元变量——三者的乘积构成。未包括协变量(总资产、总负债和总收入)的朴素模型(naive model)显示,互联网治理发生后,中国数据密集型企业相对于美国同行而言,并没有显著优势,反而有不显著的劣势。添加协变量的饱和模型(saturated model)显示,互联网治理发生后,中国数据密集型企业反而相对于美国同行具有显著的劣势。对于这一发现,作者认为,由于数据作为投入要素,只是增长的来源之一,而美国数据密集型企业在其他方面的某些优势,抵消了中国数据密集型企业的数据优势。这便引出了作者关于“知识负外部性”的讨论。
图6:中国互联网治理对于中国数据密集型企业和美国数据密集型企业影响的差异
齐曦媛同学首先系统梳理了作者关于“知识负外部性”的核心论点:强化的互联网治理虽能保护本土数据密集型企业,但会严重阻碍国内知识密集型研究者获取国际前沿知识,从而损害科研创新质量。她详细介绍了文章用于检验该假设的双重差分(DID)与负二项回归模型设计,包括如何利用“每页参考文献数量”作为学科知识密集度的代理变量,以及如何通过中美论文引用数据的对比,实证发现中国知识密集型领域的研究质量在年治理加强后有所下降,而全学科研究者相对于美国同行而言也并无优势。
图7:检验知识负外部性(基准模型)
齐曦媛同学利用泊松回归对假设1(知识负外部性)进行了稳健性检验,回归结果与原文基本一致。
图8:负二项回归稳健性检验
随后,齐曦媛同学重点剖析了文章揭示的国家战略应对逻辑。她指出,面对互联网治理带来的双重外部性困境。数据正外部性威胁数据主权、知识负外部性抑制创新。国家采取了精细化的治理策略。一方面,通过出台《网络安全法》等一系列数据主权立法并整治大型科技企业的海外扩张,以重申对国内数据的绝对控制;另一方面,则通过制度化的“选择性豁免”,特殊的网络访问权限,在最大限度减少对关键知识生产活动附带损害的同时,将政治风险精准隔离。
03 研究前沿
在第二篇文章的分享中,曾庆鸣同学首先介绍了大语言模型用于战略决策和军事决策的理论和现实背景。从研究意义来看,生成式大语言模型应用于提升军事决策效率、减少人类失误与情绪影响,但在高风险军事场景中的行为方式、升级倾向与可控性存在争议。文章提出了核心问题:用人工智能大模型做出危机决策会不会提高危机误判与升级风险?降低危机误判与升级风险?
曾庆鸣同学介绍了人工智能军事决策的实验设计和兵棋推演部分,详细解释了实验所涉及的情景简报过程、核心处理变量的生成方式以及推演任务中的交战规则。在情景简报部分,实验模拟了大国战略竞争与安全冲突的典型场景,并在处理阶段引入AI武器精度和操作人员熟练度两个变量,并由此进行第一回合推演。交战规则中可采取启用AI武器、保持克制或主动攻击三种策略。在第二回合中,在处理阶段引入对方采取升级行动或维持现状的变量,并制定交战规则,可选择维持现状、军事动员或直接升级对抗三种策略。作者重点比较了人类参与者以及两个大语言模型(GPT3.5和GPT4)在策略选择上的差异。
图9:人工智能军事决策的实验设计和兵棋推演部分
龙泰格同学接着介绍了实验结果。第一,两个LLM与人类玩家在对场景和刺激的反应上呈现总体一致性,但在具体决策中,LLM与人类的行为在细节上存在“稳定的系统性差异”(consistent systemic deviations)。作者通过“线性判别分析”(Linear Discriminatory Analysis)对三类参与者对于各个步骤的策略选择进行降维,将其决策偏好投影到二维空间。结果显示,三类参与者的决策偏好出现大部分重叠。然而,聚焦个别的行为策略,LLM与人类相比存在显著差异。第二,两个LLM之间,在具体到每一步的行为决策上也存在明显差异。GPT-3.5 更倾向于采取进攻性较强的行动;GPT-4 更倾向于维持防御性或情报导向的策略。第三,在添加附加指令(保护美国军人的生命安全;最小化航母打击群的损失;避免与中国冲突升级)后,两个LLM的反应也出现分化。GPT3.5的攻击性显著增强,而GPT4更多地呈现克制的倾向。第四,与人类相比,LLM之间并不会做出实质性交流,反而呈现出“荒谬的和谐”。
图10:GPT3.5和GPT4在每一步决策中的差异
齐曦媛同学深入解读了LLM(大语言模型)在高风险军事决策模拟中的深层局限性。她着重分析了研究发现:LLM的决策行为对模拟对话长度异常敏感,对话越长反而越激进。且LLM完全无法体现人类玩家的个体背景特征(如和平主义或好战倾向),输出高度同质化;并且其多回合决策存在严重的不一致性,从缓和姿态突然转向攻击的概率远高于人类。
图11:LLM对话长度敏感性
图12:LLM多回合决策一致性比较
基于这些发现,齐曦媛同学总结了文章的核心警示。当前的LLM并非中性的决策辅助工具,其内在的行为偏差可能在危机情境中放大误判与冲突升级的风险。因此,在缺乏严格的行为保障技术和部署标准前,绝不能将战略判断权让渡给AI。
04 活动总结
在讨论环节,同学们针对核心变量的选择与操作化、因果机制的逻辑性和严谨性、模型主要结果的意义和解释、大语言模型决策实验机制等提出了各自的看法。对于第一篇文章,讨论聚焦在变量测量上。作者对于知识密集程度以相关研究成果的“每页参考文献数量”进行测量,可能存在一定的局限性。某些知识贡献较低的成果,可能会为了“灌水”而引用大量无关文献;而某些知识贡献较大,尤其是某个领域的开创性、原创性成果,可供其引用的文献可能本身就较少。由此,这一测量方法可能会受到这两方面特殊情况的干扰。然而,主讲人提出,由于作者的样本量足够庞大,可能可以将部分特殊情况对于研究结果的负面影响尽可能减小。这一讨论带来的启示是,当我们无法找到某一个变量“最好”的测量手段时,我们至少要选择一个“最不坏”的测量手段,并且尽可能以大规模的样本来平滑掉极端情况带来的干扰。对于第二篇文章,讨论的焦点则在于如何在实际外交决策中进行人类与大语言模型的协同。大语言模型基于不同的学习能力和训练样本可能做出倾向不一致的决策,在实际场景中,决策者仍需要综合不同因素、进行充分交流讨论来做出策略选择。
在点评环节,漆海霞老师肯定了主讲人准备充分、讲解细致、逻辑严密,并鼓励同学们以此为契机,持续跟进学术前沿,加强方法创新与理论提升,推动国际关系领域对人工智能应用的探索与深化。张晟昊老师指出,实证文章的理论框架中无法体现“思想”要素对产出模型的影响,在研究设计中也未得到体现。同时,研究设计中的论文被引次数作为衡量学科是否属于知识密集型学科的方法也有待商榷。刘哲希老师也指出,本次的实证文章在因果机制的论证上有待加强,AI领域文章的创新性较高,但仍需在实际应用中的持续迭代与验证来体现。安博德同学则对实证文章的双重差分法、三重差分法和连续差分法进行了补充说明,并指出各种因果推断策略的应用场景。本期沙龙不仅加深了师生对大型语言模型在国际关系和博弈研究中的理解,也为青年学者提供了学术交流和思想碰撞的平台。