12张图表解读2025年人工智能的发展状况

2025-04-10

如果你关注AI相关的新闻，可能会被各种矛盾的信息轰炸：AI正在蓬勃发展。AI是个泡沫。AI的现有技术和架构将持续创造突破。AI的发展路径不可持续，需要革命性的新思路。AI将取代你的工作。AI最大的用处不过是把家庭照片转成吉卜力风格的动画。

斯坦福大学以人为本人工智能研究院（Institute for Human-Centered Artificial Intelligence，HAI）发布的《 2025 AI Index》为我们拨开了这层迷雾。这份400多页的报告充斥着关于研发、技术表现、负责任AI、经济影响、科学与医学、政策、教育与公众态度等主题的图表和数据。

1. 美国企业一骑绝尘

图表显示2003-2024年重要AI模型趋势：2024年美国40个，中国15个，欧洲3个

Graph showing notable AI models trend from 2003-2024: US 40, China 15, Europe 3 in 2024.

衡量各国在AI竞赛中"领先地位"的方式众多（发表或引用的期刊论文、获批专利等），但最直观的指标莫过于谁在推出具有影响力的模型。研究机构Epoch AI建立的数据库收录了1950年至今的重要AI模型，本图表即基于该数据库绘制。

2024年，全球40个重要模型源自美国，中国贡献15个，欧洲则有3个（全部来自法国）。另一未展示的图表显示，2024年几乎所有重要模型都来自产业界而非学界或政府。关于2023至2024年重要模型数量下降的现象，报告认为可能源于技术复杂度提升和训练成本持续攀升。

2. 训练成本高企

柱状图显示2017-2024年AI训练成本，Gemini 1.0 Ultra以1.919亿美元登顶

Bar graph showing AI training costs from 2017 to 2024, peaking at $191.9M for Gemini 1.0 Ultra.

天价训练成本！由于头部AI公司多已停止披露训练细节，报告通过与Epoch AI合作，根据训练时长、硬件类型与数量等信息估算部分模型的训练成本。其中谷歌Gemini 1.0 Ultra以约1.919亿美元的成本位居榜首。训练成本的飙升与报告其他发现一致：模型参数量、训练时长及训练数据量都在持续扩张。

值得关注的是中国新秀深度求索（DeepSeek），其宣称仅用600万美元就训练出具有竞争力的大语言模型，引发资本市场震动（但遭部分专家质疑）。HAI指导委员会联席主任约兰达·吉尔向《IEEE科技纵览》表示，DeepSeek的成就"令人惊叹"，并指出计算机科学史上不乏低效技术被优雅方案取代的先例。"学界早有共识认为大模型效率终将提升，只是没想到实现者会来自中国。"她坦言。

3. 使用成本持续下降

折线图显示2022-2024年GPT-3.5与GPT-4在各测试集的推理价格下降趋势

Line chart showing decreasing inference prices for GPT-3.5 and GPT-4 across benchmarks from 2022-2024.

虽然（多数）AI模型的训练成本不断攀升，但报告揭示了若干积极趋势：硬件成本下降、性能提升、能效改善。这意味着推理成本（即使用已训练模型的费用）正大幅降低。这张对数坐标图表显示，GPT-3.5的每百万token成本从20美元骤降至0.07美元，GPT-4在不足一年间也从15美元降至0.12美元。

4. 沉重的碳足迹

柱状图显示2012-2024年AI模型训练碳排放量增长趋势

$Bar chart showing increasing carbon emissions from training AI models, 2012\u20132024.$

尽管能效改善值得肯定，但总体能耗上升导致AI数据中心碳足迹惊人。报告基于训练硬件、云服务商及地理位置等因素估算，前沿AI模型的训练碳排放量持续攀升（DeepSeek除外）。图表中碳排放冠军Meta的Llama 3.1模型产生约8930吨CO₂，相当于496个美国人一年的碳排放总量。这解释了为何AI公司纷纷将核能视为可靠的零碳电力来源。

5. 性能差距收窄

中美聊天机器人评分对比：美国从1250升至1385，中国从1150升至1362（2024.1-2025.2）

US vs China chatbot scores: US trend up from 1250 to 1385, China from 1150 to 1362, Jan 2024-Feb 2025.

尽管美国在重要模型数量上保持领先，但中国模型正快速追赶质量。本图表显示在聊天机器人基准测试中，中美性能差距从2024年1月的9.26%收窄至2025年2月的1.70%。报告在推理、数学、编码等测试中也观察到类似趋势。

6. 人类终极考试

柱状图显示各AI模型正确率，最高为o1模型的8.80%

Bar graph showing accuracy rates of various AI models, with "o1" having the highest at 8.80%.

今年报告凸显一个不容忽视的事实：多数用于评估AI能力的基准测试已趋"饱和"——AI得分过高导致测试失去区分度。这种现象已蔓延至常识、图像推理、数学、编码等多个领域。吉尔坦言见证了一个个基准测试相继失效："我原以为性能会进入平台期，需要新技术或革命性架构才能突破，但现实并非如此。"

为此，研究人员开发了名为"人类终极考试"的新基准，汇集全球500家机构学科专家提供的超高难度问题。目前即便最强AI系统也表现堪忧：OpenAI的o1推理模型以8.8%的正确率暂居榜首。这个记录能保持多久？我们拭目以待。

7. 数据公地危机

柱状图显示2016-2024年顶级网站robots.txt限制类型变化

Bar chart showing various robots.txt restriction categories in top web domains from 2016 to 2024.

当前生成式AI的智能源自海量网络数据训练，"数据是AI经济的新石油"已成共识。随着AI公司不断突破数据使用边界，"数据峰值"何时到来引发担忧。一个突出问题是网站日益限制爬虫抓取数据（可能出于对AI公司利用数据牟利却破坏其商业模式的担忧）。本图表显示顶级网站中48%的数据现已完全限制抓取。但吉尔认为新方法可能终结对庞大数据集的依赖："数据量终将不再是关键因素。"

8. 资本狂热涌入

柱状图：2013-2024年AI投资趋势，2021年3607.3亿美元登顶

Bar chart: AI investment trends by activity (2013-2024). Highest: 2021 ($360.73B), lowest: 2013 ($14.57B).

过去五年企业界为AI敞开金库。尽管2024年全球总投资未达2021年巅峰，但值得注意的是私募投资创历史新高。在2024年1500亿美元私募投资中，约330亿美元流向生成式AI领域（报告另有图表展示）。

9. 回报何时到来？

2024年AI对各职能成本与收入影响：服务运营成本降幅最大，市场营销收入增幅最高

AI use impact on cost and revenue by function (2024): highest cost decrease in service operations, highest revenue increase in marketing.

企业投资AI显然期待丰厚回报。虽然关于AI变革生产率的讨论甚嚣尘上，但现实是多数企业尚未实现显著成本节约或利润增长。麦肯锡调研数据显示，在报告成本下降的企业中，多数节约幅度不足10%；在实现收入增长的企业中，多数增幅低于5%。巨额回报或许仍在路上，但当下尚未显现。

10. AI医生即将上线？

箱线图显示GPT-4单独临床诊断准确率高于医生+GPT-4组合及单独医生

Box plot showing that GPT-4 alone scores highest in clinical diagnosis compared to physicians + GPT-4 and physicians alone.

AI在科学与医疗领域形成小规模爆发。报告列举了助力材料科学、天气预报、量子计算等领域研究的新基础模型，多家公司试图将AI的预测与生成能力转化为药物发现利润。OpenAI的o1模型在医学委员会考试题库MedQA中取得96%的惊人成绩。

但总体而言，这仍是潜力巨大却尚未产生实质影响的领域，部分原因或许在于人类尚未找到最佳应用方式。2024年一项研究显示，医生使用GPT-4辅助诊断既未提升准确率也未加快速度。耐人寻味的是，单独使用GPT-4的表现优于人机协作及单独医生。

11. 美国政策转向州级

折线图显示2016-2024年美国AI相关提案法案从0增至221项，2024年仅通过4项

Graph of AI-related proposed bills in the U.S. rising from 0 to 221, 2016-2024. Very few bills have passed, including only 4 in 2024.

美国国会关于AI的讨论多而立法少。报告指出AI政策重心已转向州层面：2024年各州通过131项相关法律，其中56项涉及深度伪造，禁止在选举中使用或传播非自愿亲密影像。

放眼全球，欧盟虽通过《AI法案》对高风险系统施加新义务，但主流趋势仍是各国发表宽泛、无约束力的AI宣言。空谈盛行的局面依旧。

12. 人类保持乐观

柱状图显示对AI影响就业的看法：更多人认为改变工作方式而非取代岗位

Bar chart showing opinions on AI's impact on jobs, likely changing work habits more than replacing jobs.

无论你是图库摄影师、市场经理还是卡车司机，关于AI是否及何时取代工作的讨论不绝于耳。但最新全球调研显示，多数人并未感到威胁：32国受访者中60%认为AI将改变工作方式，仅36%担心被取代。"这个结果出乎意料，"吉尔表示，"人们认为'AI会改变工作，但我仍能创造价值'的想法很有力量。"未来我们是否会通过管理AI团队来体现价值？且待时间验证。

**版权说明**

（本文转译自https://spectrum.ieee.org/ai-index-2025，作者Eliza Strickland是IEEE Spectrum高级编辑，负责报道人工智能、生物医学工程及其他主题）