信息引擎项目 | 高效洞察海量信息,助力深度内容解析

北京中关村学院信息引擎技术助力深度解析复杂国际议题 在全球化与信息技术深度交融的时代,如何从纷繁复杂、浩如烟海的数据中洞察本质、预见趋势,已成为组织和个人在决策时面临的核心挑战。北京中关村学院“信息引擎”项目团队着眼于此,致力于构建从多源信息深度挖掘到复杂系统决策推演的全链路智能技术体系。近日,该项目在“AI + 社会科学”的交叉探索中取得阶段性实践成果,其研发的智能分析系统就“全球芯片产业博弈”等重大国际议题完成深度解析,相关成果在中央广播电视总台新媒体账号“玉渊谭天”的视频报道中获得采用,为前沿人工智能技术系统性地赋能复杂问题研判与重要决策开辟了新的路径。 ...

July 17, 2025 · 1968 words · Haoxiang Guan

AGI 学部 | 何绍斌同学参与“公共政策研究前沿”国际研讨会

以 AI 重塑社科研究:博士生何绍斌携“智能扎根理论”框架亮相国际会议 摘要: 近日,何绍斌同学在“公共政策研究前沿”国际研讨会上,报告了一项融合多智能体与监督微调的开创性研究。其提出的“智能扎根理论”(IGT)框架,旨在破解社会科学经典定性方法的瓶颈,实验证明其性能不仅媲美人类专家,更展现出 AI 辅助科学发现的潜力,获得与会学者,特别是顶刊主编的高度评价。 ...

July 14, 2025 · 1959 words · Shaobin He

LLM 强化学习中 Reward 准确性对训练效果的影响

一、简介 1.1 背景 2025 年春节期间,DeepSeek-R1 [1] 引发了 LLM 领域的强化学习热潮。DeepSeek-R1 通过强化学习训练,直接激发模型自主推理能力;其核心算法 GRPO 结合基于规则的奖励函数(rule-based reward),让模型在数学竞赛 AIME 2024 中从 15.6% 准确率飙升至 86.7%。更惊艳的是,R1-Zero(无监督微调,纯强化学习)通过自我迭代涌现出“反思”能力(被称为’Aha moment’),主动修复推理错误,验证了大模型 RL 驱动的自主进化潜力。在多项权威测试中,DeepSeek-R1 以 97.3% 的 Math-500 准确率超越 OpenAI o1(96.6%),Codeforces 编程任务表现与人类顶尖选手持平。种种迹象表明,大模型强大的生成理解能力成为强化学习最强大的“先验”,大模型本身的强大能力能够被强化学习激励出来。 ...

April 24, 2025 · 5391 words · Yanzhi Zhang

信息引擎项目 | 张延智同学参与学院 Paper Sharing

近日,北京中关村学院组织开展了新一期 Paper Sharing 学术交流活动,面向全院学生公开分享前沿人工智能领域的重要问题。其中,信息引擎项目成员张延智同学作为主讲人受邀进行报告讲解,以“强化学习( RL )在大语言模型( LLM )中的应用”为主题,系统解析了强化学习核心原理在现代大模型设计中的关键作用,引发了在场师生的广泛关注与深入讨论。 ...

March 28, 2025 · 1286 words · Zhenzhen Ren