生成式人工智能:社会科学研究的革新工具
Update: 2025/7/8
主页 | 推文 | 公开课 | 机制分析 | 暑期班 | 社会网络

生成式人工智能,特别是像 ChatGPT 这样的大型语言模型 (LLMs),具有彻底变革研究方式的潜力。
—— Anton Korinek (University of Virginia)
目录
1. 课程概览
A. 基本信息
B. 嘉宾简介

杨阳,香港浸会大学商学院会计、经济与金融学系研究助理教授,加州大学圣迭戈分校计算社会科学博士,主要研究领域包括媒体经济学、劳动经济学与教育经济学。曾任斯坦福大学中国经济与制度研究中心 (SCCEI) 博士后研究员,现为 SCCEI 访问学者,加州大学全球冲突与合作研究所 (IGCC) 研究员。其研究成果发表于 Pacific Basin Finance Journal、Political Science Research and Methods、《经济学 (季刊)》、《世界经济》等期刊。杨阳博士目前正在主持多项超大规模数据采集项目。其中,招聘数据自动采集项目 Chinese Job Market Tracker,已累计采集超过 7 亿条招聘信息,致力于通过数据洞察劳动力市场变迁。
C. 为什么要学会这门课?
在研究过程中,大家或许也经常有这样的感受:
- 虽然阅读了大量文献,但写综述时总觉得像在「堆砖头」而不是「盖房子」。
你发现自己不太清楚哪些文献是最重要的,也理不清文献之间的演化脉络,写出的综述似乎只是堆砌了很多零散的总结,无法凸显自己的“边际贡献”。
- 研究假设难以系统化,缺乏清晰的逻辑框架将想法转化为可验证的假设。
虽然心里有了方向,但总是缺少系统化的框架把想法转化为明确的研究假设。有时候自己甚至分不清是在写另一个版本的文献综述还是研究假设。而且不知道这个想法是否已经被别人研究过了,往往要花费大量时间去验证。
- 数据采集和分析总是耗时又繁琐,难以保证数据质量和一致性。
你可能需要从多个来源收集数据,但每个来源的格式和质量都不尽相同。清洗和整理数据占用了大量时间,而且容易出错。即使有了数据,在分析时也常常不知从何入手,或者担心自己的分析方法是否恰当。
- 写作时,总觉得论点不够有力,论证缺乏清晰的逻辑。
尽管文献整理得很充分,但最终的论文总是缺少深度和逻辑性。你写的论点没有足够的支撑,论证过程显得松散,只能简单堆砌文献的零碎片段,而没有系统地组织起来。而且不同期刊有不同的写作风格和要求,每次改投都要花费大量时间重新调整论文结构和表述方式。
- 总觉得自己的研究难以引起同行的共鸣和关注。
你的研究可能很有价值,但在学术会议或研讨会上,却难以用简洁有力的方式展示核心发现。你的演讲 slides 看起来很专业,但听众似乎无法抓住重点,也记不住你的主要结论。
本课程将帮助你:
- 利用 AI 工具,从海量文献中智能提炼关键节点,快速梳理文献演化脉络,找到研究空白,精准定位自身研究;
- 借助大语言模型,辅助生成和完善研究假设,自动推演可行性,避免思路受限于个人经验;
- 用 AI 获取大规模数据、结构化多模态数据、生成新颖的测量指标,同时提升数据处理的效率和创新性,
- 通过 AI 驱动的写作框架,自动生成结构化提纲和论点建议,让论文更具逻辑性和说服力;快速转换论文写作风格,适应不同期刊的偏好。
- 利用 AI 工具打造个人学术品牌,提升学术传播能力,快速生成高质量 slides、海报和学术邮件,让你的研究成果更易被同行关注和认可。
GenAI 正在彻底改变社会科学研究者的工作模式。每一次技术革命,最先敏锐感知并积极拥抱变化的人,往往能够率先受益、获得先发优势。无论是文献综述、假设生成、数据采集还是学术写作,AI 工具都在重塑我们的研究流程和思维方式。相信这门课能够为你提供系统的工具方法和实操经验,帮助你把握时代机遇,在学术研究中走在前列。
2. 课程详情
本课程为期 3 天,包括 6 大模块,旨在帮助大家掌握如何利用 AI 工具提升文献综述、研究设计、数据收集与分析等研究各环节的效率与质量。每个模块都配有实操案例的演练和分析,突出 1-2 个关键 AI 工具的课堂演示或练习,使学员能够灵活将所学工具应用于自身研究中。
T1. 生成式 AI (Generative AI) 概览
我们正在经历一场关于语言与思维的底层革新。
大语言模型 (LLM) 不只是一个写作工具,它正在成为研究者的协作者、模拟者与对话者。它能复述文献、生成假设、设计问卷、解释结果——以极快的速度、极高的语义一致性,给出看似“合理”的输出。但这种合理性,是否真的可靠?它的回答,是否真的理解?
理解 LLM 的前提,是理解它的工作方式。为什么它能“看出”文本之间的逻辑?又为何它有时会“胡说八道”?这一切的答案,藏在它的底层结构里:Transformer 架构、自注意力机制、Token 嵌入与预训练策略。
本专题将帮助你:
- 看懂语言模型的“成因”:模型的架构如何塑造它的能力边界;
- 比较主流模型的异同:GPT、Claude、Gemini、通义千问、文心一言等,各自擅长什么、缺什么;
- 理解它的“强项”与“幻觉”共存:零样本学习与上下文推理的背后逻辑;
- 建立判断感:面对模型输出,你应信什么、查什么、质疑什么。
LLM 是一个极具潜力的工具,但只有理解它,我们才能不依赖它。这一讲,不教你“如何使用”,而是教你“为什么不能盲用”。
专题要点
- LLM 基本原理:介绍大型语言模型 (LLM) 的基础架构和工作原理,包括 Transformer 模型结构及其自注意力机制 (即模型在生成文本时会重点关注输入中的相关部分),预训练与微调机制的区别,以及 Token 表示与向量嵌入等概念,帮助学员理解 LLM 背后的技术基础。
- 代表模型:展示当今主要的大型语言模型及其特点,如 OpenAI 的 GPT 系列、Anthropic 的 Claude、Google 的 Gemini、Meta 的 LLaMA 等,以及国内的大模型 (如 DeepSeek、百度文心、阿里通义等) ,比较它们的规模、训练数据和适用场景,了解业界最新的发展。
- 当前能力:总结 LLM 目前在各领域展现的能力,包括流畅的语言生成、基本逻辑推理,以及多模态扩展 (例如 GPT-4 的图像理解能力),讨论这些模型在对话问答、内容创作、辅助决策等方面的表现。
- 优势:分析 LLM 相较传统方法的独特优势,如零样本和小样本学习能力 (无需大量标注数据即可完成新任务) 、知识迁移与泛化能力 (在不同领域的问题上表现出色) 、上下文学习 (根据提示动态调整输出) 等,为社会科学研究带来的潜在益处。
- 局限:强调当前 LLM 存在的局限性,包括可能产生的不真实信息或“幻觉”现象、内在偏见和歧视风险、上下文窗口长度限制 (一次性交互信息量有限) 等,提醒学员对模型输出保持审慎,并探讨这些问题对社会科学研究的影响。
- 应用注意事项:针对在社会科学研究中使用 LLM 的特殊考虑,讨论如何正确解读模型输出、避免过度依赖,结合实例说明在问卷分析、政策研究等场景下使用 LLM 时需要注意验证事实、保护数据隐私和遵守伦理规范等。
使用的工具或技术
- Transformer 工作原理可视化动画:通过动态图演示自注意力机制和编码解码过程,加深对模型结构的理解
- Hugging Face 大模型在线 Demo:直观体验中文/英文大模型的文本生成效果,如自动续写文本或回答问题
- OpenAI Playground 互动平台:现场演示如何调整提示词与参数与 GPT 模型交互,并观察模型在不同设置下的输出变化
练习/案例
- LLM 能力演示:由讲师现场提问同一大型语言模型简单和复杂的问题各一例,以对比展示 LLM 在常识问答和逻辑推理上的表现差异。
- 幻觉现象体验:要求 LLM 解释一个社会科学术语 (如“沉默的螺旋”理论),然后由学员对其回答进行事实核验,找出其中可能的不准确之处,借此讨论模型幻觉产生的原因及应对方法。
T2. AI 辅助研究设计、假设生成与文献调研
研究设计的难点不在于技术门槛,而在于它要求研究者同时具备理论判断力、方法意识与对领域文献的深度感知。尤其是在早期阶段,很多研究者会面临这样的挑战:
- 面对大量的文献,难以识别哪些是“关键节点”,哪些只是重复性的补充;
- 缺乏对文献之间逻辑结构的把握,导致综述内容“堆而不精”,难以定位研究的边际贡献;
- 引用文献时,只关注“内容”,忽略了“语境”——同一篇文献在方法部分、结果部分被引用,语义可能截然不同;
- 有研究想法,却难以发展为清晰、可检验的假设,或者无法系统化地展开推论。
本专题正是为这些“研究起点阶段”的关键问题而设。我们将系统演示如何借助 ChatGPT、FutureHouse、Elicit、ChatPDF 等 AI 工具,完成从文献识别与脉络分析,到假设生成与推理验证的全过程:
- 利用 AI 快速定位关键节点文献,构建清晰的领域知识图谱;
- 借助 LLM 对话模型,围绕研究问题构建假设,并推演其背后的逻辑链;
- 对引用文献的“meta 信息”进行分析,理解其在不同研究中的角色与语境变化,从而提升方法适配与论证精度;
- 最重要的是,训练如何“与 AI 协作而不盲信”,让技术工具成为延伸思考的触角,而非替代判断的黑箱。
本专题的目标,不是生成答案,而是帮助你构建一套能“提出好问题”的思维工具箱 —— 在文献中站稳脚跟,在设计中走出自己的路径。
专题要点
- 研究灵感与问题定义:展示如何借助 AI 进行头脑风暴来激发研究创意。通过人机对话,大语言模型可以根据研究领域提出潜在有价值的研究问题或假设,帮助拓展学术灵感。
- 假设生成与推敲:演示使用 AI 根据既有文献和直觉生成研究假设,并通过追问让模型论证这些假设的合理性。AI 可以从自动化文献综述中提炼依据,辅助推演假设成立与否的情境。研究者据此对 AI 提供的假设进行批判性评估和必要修改。
- AI 辅助文献查找:演示如何使用 AI 工具智能检索学术文献,超越关键词匹配,理解语义以发现隐藏相关性。介绍智能文献推荐系统,让研究者不错过重要参考文献。
- 实践中的注意事项:强调 AI 生成内容的真实性验证。指导学员在使用 AI 摘要文献后,如何回到原始文献核对细节,避免“大模型幻觉” (hallucination) 带来的错误。注意核查 AI 推荐的参考文献的真实性和可靠性,防止出现引用错误或杜撰的文献条目。讨论版权和学术诚信问题,如引用不当可能带来的风险。
使用的工具或技术
- 文献综述 AI 助手 (如 FutureHouse、Perplexity、Elicit 等,可利用语言模型自动执行文献综述任务)
- 大型语言模型 (如 ChatGPT/GPT-4 或 DeepSeek) 用于论文摘要、问答;学术搜索引擎 (Semantic Scholar 智能摘要、知网学术助手等)
- PDF 文献对话工具 (如 ChatPDF、Claude 等) 用于与长篇文献交互提问
练习/案例
- 练习:研究方案头脑风暴:学员针对各自领域的一个初步研究想法,使用 ChatGPT 进行头脑风暴,让 AI 提出该主题可能的研究问题和对应假设。
- 案例:快速综述起草:提供一个研究主题 (如“数字媒体对选民参与的影响”),学员利用 Elicit 或学术搜索 AI 工具检索 3-5 篇相关文献,获取主要发现要点。
T3. AI 辅助数据收集与预处理
在社会科学研究中,“找数据”和“清洗数据”几乎占据了整个研究流程的一半时间。面对问卷、访谈、网页、语音视频等多种数据源,很多人常常陷入数据难找、格式混乱、处理效率低的困境。
本专题聚焦「AI 驱动的数据收集与预处理流程」,帮助学员掌握从原始信息提取到结构化建表的核心技能。课程将系统讲解如何利用 Whisper、Firecrawl、ScrapeGraphAI 等工具实现网页抓取、语音转写与图像识别,并展示如何借助 LLM 对杂乱无章的数据自动完成清洗、重命名与变量重构。同时,我们也将介绍一类前沿工具 —— 多智能体平台 (如 Stanford Smallville、AutoGen) ,它们正在成为“新型数据产生器”,为实验研究提供模拟数据的新路径。
如果你曾遇到这些问题,本课程将提供实用解法:
- 网络文本、PDF 表格太杂,提不出有效变量?→ 我们教你用 AI 工具提取关键字段;
- 访谈音频、会议录音难以转化为数据?→ 我们演示 Whisper 等模型的转写与摘要能力;
- 想用爬虫但不懂代码?→ 本课程提供无需编程的智能采集解决方案;
- 想做行为实验但没有足够的受试者?→ 我们展示如何用 AI 智能体生成虚拟行为数据。
本专题将带你跨越从“信息”到“数据”的鸿沟,把更多精力投入到真正有价值的分析之中。
专题要点
- 智能数据收集简介:分析社会科学研究常见数据收集形式 (问卷数据、访谈文本、网络爬虫数据等),介绍如何借助 AI 大幅提高数据获取效率。
- 语音与视频转写:讲解 AI 语音识别技术 (如 OpenAI Whisper) 在如何将非传统数据进行结构化。
- 数据清洗与预处理:说明 AI 在处理杂乱数据上的作用。
- AI 智能体作为数据产生器:介绍 AI 代理 (如 Stanford Smallville、CAMEL、AutoGen 等平台) 作为虚拟人类实验体的创新应用。
使用的工具或技术
练习/案例
- 练习:AI 辅助网页结构化信息提取:学员选择两种方式完成提取任务。
- 案例:虚拟人群社会互动实验:利用平台设计不同人格特征的 AI 智能体,模拟经典社会实验。
T4. LLM 驱动的文本分析实践
在数字经济和政策研究日益依赖非结构化数据的今天,传统的问卷与数值分析已无法满足对民意表达、政策回应、企业行为等复杂现象的深度理解。如何高效提取文本中的有效信息、捕捉语义中的潜在机制,成为众多研究者与从业者的核心挑战。
本专题聚焦于「大型语言模型 (LLM) 驱动的文本分析实践」,系统讲授如何将 ChatGPT、BERT 等先进模型用于情感分析、主题建模、观点挖掘与信息抽取等核心任务,帮助学员从“会用工具”迈向“理解方法、掌握策略”。课程不仅对比 LLM 与传统 NLP 技术的异同,更聚焦实操层面,结合社交媒体评论分析、开放式问卷自动编码等真实案例,手把手教你构建文本分析管线。
无论你是社会科学研究者、政策分析师,还是企业战略部门的数据分析师,这门课程都将帮助你解决以下痛点:
- 想分析文本但不懂 NLP 编程?→ 我们教你用 ChatGPT + Python 快速上手;
- 拿到问卷文本却无从下手?→ 我们演示如何构建主题结构并高效归类;
- 听说 GPT 很强,但不知如何落地实证?→ 本课程将带你实现从“模型”到“实用”的关键一跃。
通过本专题,你将获得一套适用于社科研究、舆情监测、政策评估、用户反馈分析等多个场景的通用技能,真正把 LLM 变为你的研究助手。
专题要点
- 文本数据的社会科学价值与 LLM 优势:介绍文本数据在社会科学研究中的价值。
- 情感分析与观点挖掘:从传统的情感词典法演进到基于 LLM 的预训练模型。
- 主题建模与自动分类:比较 LDA 模型与 BERT、GPT 模型在主题识别上的差异与优势。
- 信息抽取与内容分析:利用 LLM 实现复杂信息结构的自动抽取。
使用的工具或技术
练习/案例
- 练习:社交媒体情感分析:学员使用 Python 调用 ChatGPT API 对社交媒体评论数据进行情感分析。
- 案例:开放问卷答案自动编码:学员手工总结问卷的主要主题,使用 ChatGPT 自动归类。
T5. AI 辅助专业学术写作
在正式投稿之前,我们往往会经历一段“写不出来、写不清楚、写得不满意”的煎熬期。尤其是在如下几个关键环节,很多研究者会卡壳:
- 研究假设写得空泛,结果部分说不出“所以然”?
虽然读了不少文献,但一到要“对比已有研究”或“论证我的结果为什么有意义”时,才发现缺少现成论据,只能临时翻文献、补文献,费时费力。现在可以借助 LLM 自动提取相似研究、辅助撰写“结果解释与对比”段落。
- 准备改投,风格却完全不对口?
不同期刊对语言风格、卖点展示的要求千差万别,一篇稿件常常需要改写数轮。现在可以用本地知识库 + LLM,学习特定期刊偏好,快速完成“风格迁移”。
- 图表注释怎么写都不满意?
图、表是论文的重要信息载体,但配套文字往往要“又具体、又清楚、又不啰嗦”,写起来耗时耗脑。现在借助 GPT-4 的图文理解能力,可自动生成清晰、规范、可复用的注释模版。
- 有些段落写得很顺,有些怎么改都别扭?
此时,不妨交给 AI,生成不同版本、建议替换句式、调整逻辑结构,从而打破写作瓶颈,让你保留“满意部分”的同时,有力优化“不满意部分”。
本专题「AI 辅助专业学术写作」,正是围绕这些核心痛点展开设计,涵盖从结果撰写、引用搜集、期刊风格化、图表注释,到摘要起草与合规发布的完整流程。通过一系列实操练习与案例,你将掌握将 LLM 真正嵌入学术写作流程的能力,做到事半功倍、精炼有力、风格对口。
专题要点
- 学术论文写作辅助:介绍 AI 如何帮助撰写和润色研究结果部分乃至完整论文。
- 相关引用搜寻与整合:使用 LLM 进行智能文献检索。
- 语言风格定制与提升:强调不同期刊对语言风格的差异要求。
- 图表与图片注释解读:展示如何借助 GPT-4 多模态模型,快速生成图表与图片注释。
- 摘要和结论生成:讲解如何利用 AI 快速起草论文摘要和结论段落。
- 发布规范与伦理:提醒在学术写作中使用 AI 需遵守期刊和机构规范。
使用的工具或技术
练习/案例
- 练习:期刊风格化润色:学员构建期刊风格化本地知识库,再利用 AI 工具润色稿件。
- 案例:图表解读与文字生成:学员使用 AI 根据图表数据撰写描述性文字。
T6. AI 赋能学术交流与传播
学术交流不仅仅是写论文、发文章,更关乎如何展示成果、对接合作、扩大影响。然而,在这些“非正式发表”的场景中,许多研究者常常面临以下困扰:
- 学术汇报做得太赶、太乱?
每次要准备 Slides 或 Poster,总觉得内容多、逻辑乱、不好看。AI 工具如 Beautiful.ai 和 Canva AI 可快速生成结构清晰、视觉美观的学术展示材料,帮助你高效传达核心观点。
- 写学术邮件总是反复斟酌,怕写错?
无论是联系导师、申请会议、投稿咨询,得体准确的邮件写作是一项必备技能。借助 ChatGPT 等工具,你可以快速生成语气适中、表达清晰的邮件草稿,大幅提升沟通效率。 - 开会做笔记太累,回头还要整理?
学术会议、讲座、组会信息量巨大,手动记录往往顾此失彼。使用 Otter、Notion AI 等工具,可以实时转写、自动提取会议要点,构建你自己的“交流知识库”。 - 个人主页难维护,研究成果没人看?
没有主页,搜索引擎查不到你的研究;有了主页,却又难以维护更新。AI 网站生成器如 Wix ADI、Squarespace AI 能帮助你快速上线并展示研究项目、出版成果与联系方式。
本专题将系统演示如何将 AI 工具嵌入到你的日常学术交流流程中,让你省力又专业,既能展示研究,也能链接合作,真正实现“内容 + 表达”双重进阶。
专题要点
- AI 辅助的 Slides 与 Poster 生成:使用 AI 工具 (如 ChatGPT、Beautiful.ai) 快速生成高质量学术幻灯片和海报。
- AI 辅助的学术邮件撰写:指导如何利用 LLM 工具 (如 ChatGPT) 快速撰写规范、礼貌、准确的学术邮件。
- AI 帮助下的会议与交流笔记:展示如何使用 AI 工具 (如 Otter) 实时记录会议要点。
- AI 自动化文献追踪与知识库构建:如何使用 AI 技术自动跟踪领域最新研究成果。
- 个人学术网站建设与品牌构建:演示如何利用 AI 快速搭建并维护个人学术网站。
使用的工具或技术
练习/案例
- 练习:AI 辅助 Slides 与 Poster 制作:学员使用 AI 工具生成幻灯片或学术海报。
- 练习:学术邮件撰写与优化:学员使用 AI 工具撰写邮件初稿,并进行优化。
- 案例:AI 自动化文献追踪与知识库构建:学员建立个人研究方向的 AI 自动追踪系统。
- 案例:AI 辅助个人学术网站搭建:学员使用 AI 工具创建个人学术网站。
3. 报名信息
主办方: 太原君泉教育咨询有限公司
标准费用 (含报名费、材料费):
优惠方案:
- 专题课/现场班老学员:9 折,3240 元/人
- 学生 (需提供学生证/卡照片):9 折,3240 元/人
- 连享会会员: 8.5 折,3060 元/人
- 温馨提示: 以上各项优惠不能叠加使用。
联系方式:
报名链接: https://www.wjx.top/vm/Q9SgxwR.aspx#
长按/扫描二维码报名:

缴费方式
方式 1:对公转账
- 户名:太原君泉教育咨询有限公司
- 账号:35117530000023891 (晋商银行股份有限公司太原南中环支行)
- 温馨提示:
对公转账时,请务必提供「汇款人姓名 - 单位」信息,以便确认。
方式 2:扫码支付

温馨提示:
- 扫码支付后,请将「付款记录」截屏发给王老师 -18903405450 (微信同号)
4. 听课指南
4.1 软件和课件
听课软件:支持手机,ipad,平板以及 windows/Mac 系统的笔记本,但不支持台式机以及平板电脑
特别提示:
- 为保护讲师的知识产权和您的账户安全,系统会自动在您观看的视频中嵌入您的「用户名」信息。
- 一个账号绑定一个设备,且听课电脑不能外接显示屏,请大家提前准备好自己的听课设备。
- 本课程为虚拟产品,一经报名,不得退换。
- 为保护知识产权,课程不允许以任何形式录屏及传播。
4.2 实名制报名
本次课程实行实名参与,具体要求如下:
- 高校老师/同学报名时需要向连享会课程负责人 提供真实姓名,并附教师证/学生证图片;
- 研究所及其他单位报名需提供 能够证明姓名以及工作单位的证明;
- 报名即默认同意「连享会版权保护协议条款」。
5. 助教招聘
名额: 10 名
任务: 详情参见 连享会助教工作指南
- A. 课前准备:完成 2 篇推文,风格参见连享会主页 www.lianxh.cn,选题参见 这里;
- B. 开课前答疑:协助学员安装软件和使用课件,在微信群中回答一些常见问题;
- C. 上课期间答疑:针对前一天学习的内容,在微信群中答疑 (8:00-9:00,19:00-22:00);
- Note: 下午 5:30-6:00 的课后答疑由主讲教师负责。
要求: 热心、尽职,熟悉常用的 AI 工具,能对常见问题进行解答和记录
特别说明: 往期按期完成任务的助教可以直接联系连老师直录。
截止时间: 2025 年 8 月 12 日 (将于 8 月 15 日公布遴选结果于 课程主页,及连享会主页 lianxh.cn)
申请链接: https://www.wjx.top/vm/ebkJYGr.aspx#


主页 | 推文 | 公开课 | 机制分析 | 暑期班 | 社会网络