微纳制造
服务信息网

12张图表解读2025年人工智能的发展状况

2025-04-10

如果你关注AI相关的新闻,可能会被各种矛盾的信息轰炸:AI正在蓬勃发展。AI是个泡沫。AI的现有技术和架构将持续创造突破。AI的发展路径不可持续,需要革命性的新思路。AI将取代你的工作。AI最大的用处不过是把家庭照片转成吉卜力风格的动画。

斯坦福大学以人为本人工智能研究院(Institute for Human-Centered Artificial Intelligence,HAI)发布的《 2025 AI Index》为我们拨开了这层迷雾。这份400多页的报告充斥着关于研发、技术表现、负责任AI、经济影响、科学与医学、政策、教育与公众态度等主题的图表和数据。

1. 美国企业一骑绝尘

图表显示2003-2024年重要AI模型趋势:2024年美国40个,中国15个,欧洲3个

Graph showing notable AI models trend from 2003-2024: US 40, China 15, Europe 3 in 2024.

衡量各国在AI竞赛中"领先地位"的方式众多(发表或引用的期刊论文、获批专利等),但最直观的指标莫过于谁在推出具有影响力的模型。研究机构Epoch AI建立的数据库收录了1950年至今的重要AI模型,本图表即基于该数据库绘制。

2024年,全球40个重要模型源自美国,中国贡献15个,欧洲则有3个(全部来自法国)。另一未展示的图表显示,2024年几乎所有重要模型都来自产业界而非学界或政府。关于2023至2024年重要模型数量下降的现象,报告认为可能源于技术复杂度提升和训练成本持续攀升。

 2. 训练成本高企

柱状图显示2017-2024年AI训练成本,Gemini 1.0 Ultra以1.919亿美元登顶

Bar graph showing AI training costs from 2017 to 2024, peaking at $191.9M for Gemini 1.0 Ultra.

天价训练成本!由于头部AI公司多已停止披露训练细节,报告通过与Epoch AI合作,根据训练时长、硬件类型与数量等信息估算部分模型的训练成本。其中谷歌Gemini 1.0 Ultra以约1.919亿美元的成本位居榜首。训练成本的飙升与报告其他发现一致:模型参数量、训练时长及训练数据量都在持续扩张。

值得关注的是中国新秀深度求索(DeepSeek),其宣称仅用600万美元就训练出具有竞争力的大语言模型,引发资本市场震动(但遭部分专家质疑)。HAI指导委员会联席主任约兰达·吉尔向《IEEE科技纵览》表示,DeepSeek的成就"令人惊叹",并指出计算机科学史上不乏低效技术被优雅方案取代的先例。"学界早有共识认为大模型效率终将提升,只是没想到实现者会来自中国。"她坦言。

 3. 使用成本持续下降

折线图显示2022-2024年GPT-3.5与GPT-4在各测试集的推理价格下降趋势  

Line chart showing decreasing inference prices for GPT-3.5 and GPT-4 across benchmarks from 2022-2024.

虽然(多数)AI模型的训练成本不断攀升,但报告揭示了若干积极趋势:硬件成本下降、性能提升、能效改善。这意味着推理成本(即使用已训练模型的费用)正大幅降低。这张对数坐标图表显示,GPT-3.5的每百万token成本从20美元骤降至0.07美元,GPT-4在不足一年间也从15美元降至0.12美元。

4. 沉重的碳足迹

柱状图显示2012-2024年AI模型训练碳排放量增长趋势  

Bar chart showing increasing carbon emissions from training AI models, 2012\u20132024.

尽管能效改善值得肯定,但总体能耗上升导致AI数据中心碳足迹惊人。报告基于训练硬件、云服务商及地理位置等因素估算,前沿AI模型的训练碳排放量持续攀升(DeepSeek除外)。图表中碳排放冠军Meta的Llama 3.1模型产生约8930吨CO₂,相当于496个美国人一年的碳排放总量。这解释了为何AI公司纷纷将核能视为可靠的零碳电力来源。

 5. 性能差距收窄

中美聊天机器人评分对比:美国从1250升至1385,中国从1150升至1362(2024.1-2025.2)

 US vs China chatbot scores: US trend up from 1250 to 1385, China from 1150 to 1362, Jan 2024-Feb 2025.

尽管美国在重要模型数量上保持领先,但中国模型正快速追赶质量。本图表显示在聊天机器人基准测试中,中美性能差距从2024年1月的9.26%收窄至2025年2月的1.70%。报告在推理、数学、编码等测试中也观察到类似趋势。

 6. 人类终极考试

柱状图显示各AI模型正确率,最高为o1模型的8.80%

Bar graph showing accuracy rates of various AI models, with "o1" having the highest at 8.80%.

今年报告凸显一个不容忽视的事实:多数用于评估AI能力的基准测试已趋"饱和"——AI得分过高导致测试失去区分度。这种现象已蔓延至常识、图像推理、数学、编码等多个领域。吉尔坦言见证了一个个基准测试相继失效:"我原以为性能会进入平台期,需要新技术或革命性架构才能突破,但现实并非如此。"

为此,研究人员开发了名为"人类终极考试"的新基准,汇集全球500家机构学科专家提供的超高难度问题。目前即便最强AI系统也表现堪忧:OpenAI的o1推理模型以8.8%的正确率暂居榜首。这个记录能保持多久?我们拭目以待。

 7. 数据公地危机

柱状图显示2016-2024年顶级网站robots.txt限制类型变化

Bar chart showing various robots.txt restriction categories in top web domains from 2016 to 2024.

当前生成式AI的智能源自海量网络数据训练,"数据是AI经济的新石油"已成共识。随着AI公司不断突破数据使用边界,"数据峰值"何时到来引发担忧。一个突出问题是网站日益限制爬虫抓取数据(可能出于对AI公司利用数据牟利却破坏其商业模式的担忧)。本图表显示顶级网站中48%的数据现已完全限制抓取。但吉尔认为新方法可能终结对庞大数据集的依赖:"数据量终将不再是关键因素。"

8. 资本狂热涌入

柱状图:2013-2024年AI投资趋势,2021年3607.3亿美元登顶

Bar chart: AI investment trends by activity (2013-2024). Highest: 2021 ($360.73B), lowest: 2013 ($14.57B).

过去五年企业界为AI敞开金库。尽管2024年全球总投资未达2021年巅峰,但值得注意的是私募投资创历史新高。在2024年1500亿美元私募投资中,约330亿美元流向生成式AI领域(报告另有图表展示)。

9. 回报何时到来?

2024年AI对各职能成本与收入影响:服务运营成本降幅最大,市场营销收入增幅最高

AI use impact on cost and revenue by function (2024): highest cost decrease in service operations, highest revenue increase in marketing.

企业投资AI显然期待丰厚回报。虽然关于AI变革生产率的讨论甚嚣尘上,但现实是多数企业尚未实现显著成本节约或利润增长。麦肯锡调研数据显示,在报告成本下降的企业中,多数节约幅度不足10%;在实现收入增长的企业中,多数增幅低于5%。巨额回报或许仍在路上,但当下尚未显现。

10. AI医生即将上线?

箱线图显示GPT-4单独临床诊断准确率高于医生+GPT-4组合及单独医生

Box plot showing that GPT-4 alone scores highest in clinical diagnosis compared to physicians + GPT-4 and physicians alone.

AI在科学与医疗领域形成小规模爆发。报告列举了助力材料科学、天气预报、量子计算等领域研究的新基础模型,多家公司试图将AI的预测与生成能力转化为药物发现利润。OpenAI的o1模型在医学委员会考试题库MedQA中取得96%的惊人成绩。

但总体而言,这仍是潜力巨大却尚未产生实质影响的领域,部分原因或许在于人类尚未找到最佳应用方式。2024年一项研究显示,医生使用GPT-4辅助诊断既未提升准确率也未加快速度。耐人寻味的是,单独使用GPT-4的表现优于人机协作及单独医生。

11. 美国政策转向州级

折线图显示2016-2024年美国AI相关提案法案从0增至221项,2024年仅通过4项

Graph of AI-related proposed bills in the U.S. rising from 0 to 221, 2016-2024. Very few bills have passed, including only 4 in 2024.

美国国会关于AI的讨论多而立法少。报告指出AI政策重心已转向州层面:2024年各州通过131项相关法律,其中56项涉及深度伪造,禁止在选举中使用或传播非自愿亲密影像。

放眼全球,欧盟虽通过《AI法案》对高风险系统施加新义务,但主流趋势仍是各国发表宽泛、无约束力的AI宣言。空谈盛行的局面依旧。

 12. 人类保持乐观

柱状图显示对AI影响就业的看法:更多人认为改变工作方式而非取代岗位  

Bar chart showing opinions on AI's impact on jobs, likely changing work habits more than replacing jobs.

无论你是图库摄影师、市场经理还是卡车司机,关于AI是否及何时取代工作的讨论不绝于耳。但最新全球调研显示,多数人并未感到威胁:32国受访者中60%认为AI将改变工作方式,仅36%担心被取代。"这个结果出乎意料,"吉尔表示,"人们认为'AI会改变工作,但我仍能创造价值'的想法很有力量。"未来我们是否会通过管理AI团队来体现价值?且待时间验证。


**版权说明**  

(本文转译自https://spectrum.ieee.org/ai-index-2025,作者Eliza Strickland是IEEE Spectrum高级编辑,负责报道人工智能、生物医学工程及其他主题)

Share this on