文章作者、来源:SkillsMaster
不是因为 Skill 多,而是因为 Skill 开始变得重要——而大多数人还没意识到这件事。
2024 年以前,AI Agent Skill 是一个极客圈子里的话题:一些开发者把自己的工具打包成 SKILL.md 文件,发布到 GitHub,让兼容的 AI 系统可以调用。这件事的规模很小,影响也有限。
然后一切突然加速了。
2025 年初,Anthropic 发布 MCP(Model Context Protocol)协议,为 Skill 的标准化调用提供了基础设施。同年,Google 推出 A2A(Agent-to-Agent)协议,让 Agent 之间可以直接共享 Skill。随着这两个协议的落地,Skill 不再只是"开发者的玩具",它开始成为 AI 应用架构的基础层。
与此同时,Token 成本的断崖式下跌重写了部署经济学。2024 年初,GPT-4 的调用成本约为 45 美元/百万 Token;到 2026 年 3 月,最低价模型已降至 0.02 美元/百万 Token——两年内跌去 80%(PPT 数据来源:国家数据局 · 2026 中国发展高层论坛)。成本的瓦解意味着:以前因为贵而不敢大规模部署的 Skill,现在可以每天被调用数十亿次。
本文的研究问题是:在这个加速过程里,AI Agent Skill 生态到底发生了什么?它是否在走向一个可持续的未来,还是正在积累一场隐性的结构性危机?
数据来源与方法
本文的核心数据来自三个实测来源:GitHub Code Search API(SKILL.md 文件总量与月度增长)、SkillsMP REST API(平台收录量与分类统计)、Finchip API(链上 Skill Token 数据)。补充数据引用 OpenRouter 平台报告(2026年3月)、Anthropic / OpenAI 官方文档,以及 PPT《AI TOKEN · 词元 2026 年发展趋势》(国家数据局,2026年3月)。
大数字背后,是一条近乎垂直的增长曲线——和一个还没人认真解决的分发问题。
两个数字看起来矛盾:SkillsMP 显示 125 万个,GitHub 直接搜索只有 22 万个。原因是 SkillsMP 把每个仓库里所有子目录中的 SKILL.md 文件都单独计数,而 GitHub Code Search 有结果上限且按文件去重。不管用哪个口径,趋势是一致的:这个生态正在爆炸式增长。
这张增长曲线是整篇报告最重要的一张图。它说明的不只是"数量多了",而是生态正在经历指数级跃升的临界点:2025 年中,每个月新增不到 20 个仓库;到 2026 年 4 月,月新增已达 851 个,5 月的节奏还在加快。驱动这次跃升的,是 MCP 协议的普及、Token 成本的大幅下降,以及主流 IDE(Cursor、VS Code)对 Skill 调用的原生支持。
目前市场上有七个主要的 Skill 聚合平台,定位各异,没有形成统一的生态,更像七个平行宇宙:
Finchip 的独特性:它是七个平台中唯一建立了变现闭环的——卖方获得 95% 收益,创作者版税 2.5%,平台抽成 2.5%。部署在 BSC / Optimism / Base 三条链上,使用 ERC-1155 和 ERC-721 标准。486 个 Skill 的体量虽小,但它的经济模型可能是整个生态商业化的早期实验田。
Finchip 的分类分布反映了链上用户的真实需求结构。量化交易类 Skill 占比最高(约 25%),其次是开发环境配置(~19%)和 AI Agents(~17%)。金融类需求占据了平台近半壁江山(量化交易 + 金融税务 ≈ 34%),这与其 Web3 用户属性高度吻合。
跨平台来看,主流分类的热度排序大致为:开发工具 > 数据处理 > 自动化工作流 > 垂直行业(法律/金融/医疗)。值得注意的是,垂直行业 Skill 虽然数量少,但被吞噬的风险也最低——因为它们需要特定领域知识和合规约束,大模型很难直接内化。
根据 OpenRouter 平台 2026 年 3 月报告,开源权重模型(OSS)使用量已显著超过闭源模型份额,覆盖 300+ 模型(GPT、Claude、Gemini、DeepSeek、Qwen、Kimi 等)。开源模型的崛起对 Skill 生态有直接影响:模型多了,Skill 的兼容要求也多了。一个 Skill 过去只需要适配 GPT,现在需要考虑在 DeepSeek R2、Claude 3.7、Qwen-Max 上的表现差异。这推高了 Skill 维护成本,也催生了"模型无关型 Skill"的新需求。
从 GitHub 仓库数据分析,当前 Skill 创作者大致分三类。个人开发者是绝对主力,占比估计 70%+ ——他们把自己的工具脚本包装成 SKILL.md,动机是技术分享和社区认可,极少能产生收入。中小型 ISV(独立软件供应商)约占 20%,他们把 Skill 作为产品的延伸触角,用于获客和生态绑定。大型企业目前参与度最低(<10%),但正在加速——Salesforce、Atlassian 等企业已经开始发布官方 Skill。
核心判断:Skill 创作者经济处于"前 App Store 时代"
SKILL.md 格式刚刚确立,MCP 协议相当于 iOS SDK 发布——基础设施到位了,但 App Store 还没出现。谁先建立"分发 + 计费"闭环,谁就拿到下一代创作者经济的入口。Finchip 的 Web3 模型是一次早期实验,但 2.5% 版税的设计方向是对的。
信道容量是有限的。当传递的信息量超过信道容量,信号就开始失真。
— Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.
Shannon 在 1948 年描述的信息论原理,正在 2026 年的 Skill 生态里重演。125 万个 Skill,但 Agent 的上下文窗口是有限的——当你试图把所有可用 Skill 的描述都塞进系统提示词,模型的实际表现不是变好,而是开始退化。
加法偏见:我们只会新增,不会删减
Adams 等(2021)在 Nature 上的研究证明,人类在解决问题时系统性地偏向"加法":加功能、加规则、加 Skill。去看 GitHub 上任何一个活跃的 Agent 项目,你会发现 Skill 只增不减——没人去清理那些已经失效的、与大模型原生能力重复的、或者依赖的 API 已经下线的 Skill。
Cursor 团队(2025)在其 Rules & Skills 文档中明确记录:当加载的自定义规则和 Skill 描述超过阈值后,模型的指令遵循率显著下降——不是因为单个 Skill 变差了,而是因为有限的上下文被稀释了。这与 GPT-4 Turbo 128K(OpenAI, 2024)和 Claude 3.7 200K(Anthropic, 2025)的实际测试结果吻合:上下文窗口再大,也有"注意力稀释"问题。
Skill 技术债:被忽视的维护成本
Sculley 等(2015)在 NeurIPS 的经典论文《Hidden Technical Debt in Machine Learning Systems》描述的"胶水代码"和"数据依赖"问题,在 Skill 生态里有直接映射。一个依赖特定 API 版本的 Skill,在 API 升级后悄悄失效;一个为 GPT-3.5 优化过 Prompt 的 Skill,在 Claude 3.7 上表现退化;无人维护的"僵尸 Skill"继续被索引、被调用、返回错误结果。类比 npm 生态——截至 2025 年,npm 中超过 40% 的包超过 2 年未更新(npm Documentation, 2025),Skill 生态正在走向同一条路。
好消息是:开源社区已经意识到这个问题。GitHub 项目 Skill Health Check Meta-Skill(龙虾之父,2026)提出了一套 Skill 健康度评估框架——用一个 Meta-Skill 来诊断其他 Skill 是否仍有效、是否值得保留。这是生态自我修复机制的早期信号。
单个 Skill 是零件,绑定了 Agent 之后,它开始变成一个"人"。这个变化,比表面上看起来重要得多。
单体 Skill 的架构特征决定了它的天花板:无状态、可插拔、功能原子化。这意味着它的优点是灵活,缺点是浅薄。一个翻译 Skill 做翻译,一个搜索 Skill 做搜索,两者之间没有记忆,没有协同,没有上下文理解。这恰好是大模型最容易内化的那种能力——简单、确定、可复现。
当多个 Skill 绑定到一个 Agent,同时注入领域知识(通过 Fine-tuning 或 RAG),并配备持久记忆和状态管理,就会出现一种非线性的能力涌现:整体能力超越了各部分的简单加和。我们把这种现象称为蒸馏专家效应(Distilled Expert Effect)。
类比:给你一个工具箱,里面有手术刀、听诊器、血压计——这是"单体 Skill 集合"。但一个受过 10 年训练的外科医生,不只是会用这些工具,他还知道什么时候用哪个、为什么用、上一次检查发现了什么、这个病人的禁忌症是什么。这就是蒸馏专家 Agent。
蒸馏专家 Agent 的市场意义
对个人开发者:单体 Skill 的生存空间在收窄,蒸馏专家是防御性选择——你的代码可以被复制,但你在某个垂直领域积累的专业知识和数据不能。对企业:蒸馏专家 Agent 是未来 AI 商业化的主要形态,它的变现路径是 SaaS 订阅或行业解决方案,而不是按调用计费。
当前 Skill 生态的隐含假设是"Skill = 文本或代码功能"。但 2025–2026 年,一批新型 Skill 正在崛起,打破这个假设:
视觉 Skill
图像识别、文档解析、UI 截图理解。代表:Claude Computer Use、GPT-4o Vision 的 Skill 化封装
音频 Skill
实时语音转文字、声纹识别、多语言翻译。Token 成本下降使实时处理经济可行
代码执行 Skill
沙箱代码运行、测试自动化、CI/CD 集成。已成为开发类 Agent 的标配
具身 Skill
机器人控制、IoT 设备操控、物理世界感知。2026 年最前沿的方向,几乎没有被 LLM 吞噬的风险
具身 Skill 的战略价值在于:它是整个 Skill 生态里唯一与物理世界有摩擦的部分——再强大的大模型,也无法把"控制一个机械臂抓取物体"这个能力内化进参数里。这是未来 10 年防吞噬壁垒最高的 Skill 类别。
这是一个被严重低估的问题:Skill 的分发体系,现在基本上不存在。
现状是:主要靠 GitHub 搜索、靠社区口碑、靠运气。没有算法推荐,没有质量排行,没有官方审核,没有冷启动支持。对比一下:YouTube 有千亿级的推荐算法把内容推送给精准用户;App Store 有编辑精选栏目,每周推荐 30–50 个 App;Skill Market 有的是一个 README 里的 GitHub 搜索链接。
分发机制的核心问题,不是"建一个更好的搜索引擎",而是"谁来决定 Agent 能看到哪些 Skill"。两个协议正在争夺这个控制权:
A2A 的颠覆意义:如果 A2A 协议成为主流,Skill 的"发现"就不再是人的问题,而是 Agent 自己解决的问题。Agent A 需要一个翻译能力,它会自动找到 Agent B(一个翻译专家 Agent),直接发起调用——没有人工介入,没有静态配置。这从根本上重写了分发逻辑,也意味着"Skill 注册中心"的价值将从"给人看"转向"给 Agent 看"。
App Store 最核心的权力不是审核,而是分发控制权。苹果通过 App Store 抽成 30%,核心依据是"我给你带来了用户"。当 Skill 生态形成类似的分发集中点,掌控它的机构就拥有对整个 Skill 经济的收费权。
目前这个位置还是空白。MCP Registry(Anthropic)、GPT Actions Store(OpenAI)、Vertex AI Agent Builder(Google)都是潜在的竞争者。谁先形成网络效应,谁就是 Skill 时代的 App Store。
这不是危言耸听。GPT-4 发布之前,有多少 Skill 在做文字摘要?现在还剩几个活跃的?
吞噬的机制是清晰的:大模型每隔 6–12 个月发布一个主要版本,每次版本升级都会把一批原来需要外部 Skill 才能完成的任务"内化"进参数里。这个过程不是恶意竞争,而是模型能力边界扩张的自然结果。当模型本身就能做到,外挂的 Skill 就失去了存在的意义。
存活率高的 Skill 都有一个共同特征:它们访问的是大模型参数里没有、也无法"预训练进去"的东西——你公司私有数据库里的实时数据、你家里 IoT 设备的当前状态、需要特定监管资质才能提供的金融建议。这些都是大模型的结构性盲区。
App Store 的历史提供了一个反直觉的案例:iOS 系统内置了相机 App、地图 App、邮件 App 之后,第三方拍照应用、导航应用、邮件客户端的数量反而爆炸式增长——因为平台的规模效应带来了更多用户,而每个用户对个性化功能的需求创造了新的空间。
Skill 生态是否也存在同样的互补扩张效应?初步证据显示是肯定的:GPT-4o 内化了通用搜索 Skill 之后,针对特定数据库(法律、医学、专利)的垂直搜索 Skill 反而增长了——因为大模型的能力提升让人们更愿意把它接入专业场景,而专业场景需要专业 Skill。
这张图揭示了一个悖论:Token 越便宜,大模型能力扩张越快(吞噬加速),同时 Skill 创作成本也越低(新增加速)。吞噬和生长同时在加速——最终决定存活的,是 Skill 的不可替代性,而不是数量。
他们不是在做工具,他们在争基础设施控制权。层次不同,战略意图也不同。
理解这场竞争,需要先理解它的层次结构。Skill 的运行需要四层基础设施:计算层(推理跑在哪里)、编排层(谁来调度 Skill)、分发层(Skill 怎么被找到)、安全层(谁来保障可信)。不同机构在这四层的布局完全不同,争夺的也是不同的控制点。
竞争格局的本质
协议战:MCP vs A2A 之争,本质是"谁来定义 Skill 的标准接口"。Anthropic 的优势是先发布、被 Cursor 等工具率先采用;Google 的优势是 A2A 在 Agent 间通信方面更进一步。两者有互补可能,但短期内会形成生态割裂。
分发战:GPT Store(OpenAI)vs Vertex AI(Google)vs GitHub(Microsoft)——谁有最多开发者,谁就有最多 Skill 上架,谁就形成网络效应。目前 OpenAI 的开发者生态规模最大,但 Microsoft 通过 GitHub 拥有最强的开发者触达能力。
权限越来越大,监管还没到位。这是当前整个生态最危险的盲区。
传统软件的攻击面是 API 端点和用户输入。在 Agent + Skill 的架构里,攻击面扩展到了Skill 描述本身。一个恶意 Skill 可以在其 SKILL.md 的 description 字段里注入指令,当 Agent 读取这段描述时,就像接收到了一个伪装成系统配置的攻击命令。这被称为间接提示注入(Indirect Prompt Injection)。
App Store 有审核团队,有恶意软件扫描,有用户评分系统。Skill 生态目前有什么?几乎没有。你加载一个陌生 Skill,唯一的"信任依据"可能是它的 GitHub Star 数——而这是可以购买的。
一个健全的 Skill 信任体系应该包含:代码签名验证、权限最小化声明(类比 Android 权限申请)、沙箱执行环境、社区评分与行为监控。这些都还在建设中,还没有任何平台完整实现。
EU AI Act(2024 年生效)对"高风险 AI 系统"的定义可能延伸到具有自主决策能力的 Agent Skill,特别是在医疗、法律、金融领域。中国 AI 治理框架(国家互联网信息办公室系列法规)对大模型的备案要求,可能在 2026–2027 年扩展到 Agent 和 Skill 层面。
这是一个被低估的结构性风险。中美两个 Skill 生态正在沿着不同的工具链、不同的标准、不同的分发渠道发展:美国侧以 MCP/A2A + GitHub + GPT Store 为主轴;中国侧以百炼/通义 + ModelScope + 国内云平台为主轴。跨生态的 Skill 兼容性问题,可能在 2027 年成为开发者面临的实际障碍。
有 125 万个 Skill,能产生稳定收入的有几个?这是这个生态最需要正视的问题。
Token 成本每年下降约 10 倍,这是一把双刃剑:一方面,Skill 的部署成本越来越低;另一方面,当模型调用变得足够便宜,用户对"为 Skill 付钱"的意愿也在下降——"既然模型本身就几乎免费了,为什么还要为封装它的 Skill 付费?"
PPT 数据给出了另一个压力:用户月付费意愿上限约 20 美元,但大模型订阅费却在上涨(GPT-4 Pro、Claude Pro 均超过 20 美元/月)。消费者的 AI 预算正在被大模型本身消耗,留给 Skill 的支付空间极窄。
传统 SaaS 的订阅制逻辑是:用户付固定月费,平台提供持续服务。这个模型在 Skill 场景下面临两个断裂点:第一,Skill 的边际成本随 Token 价格下降而趋近于零,用户感知不到"为什么要付钱";第二,Skill 被吞噬的风险意味着订阅可能随时失去价值——你今天订阅了一个代码解释 Skill,明天 GPT-5 原生支持了,你的订阅就成了空气。
蒸馏专家 Agent 是最有希望的变现路径:它卖的不是工具,而是结果——"帮你完成一件专业的事"。用户为结果付钱的意愿,远高于为工具调用付钱。类比:你愿意为 ChatGPT 订阅付 20 美元/月,但你也愿意为一个能帮你自动处理税务的 AI 助手付 200 美元/月——价值主张完全不同。
Finchip 的 486 个 Skill 规模很小,但它的设计有三个值得关注的先进之处:创作者版税机制(每次交易创作者自动获得 2.5%,无需主动索取);链上所有权(Skill 作为 ERC-721/1155 代币,创作者永久持有所有权证明);去中心化定价(市场自由定价,平台不干预)。这三点正好解决了传统 Skill 平台的三个核心问题:变现不透明、所有权不明确、定价权缺失。
有些事情我们比较确定,有些事情还说不准。但窗口期正在关闭。
悬念 ①
A2A 协议会不会让人工分发彻底边缘化? 如果 Agent 能自主发现和调用其他 Agent 的 Skill,人工配置的 Skill Registry 会不会变成历史遗物?
悬念 ②
中美生态分叉会深化还是收敛? MCP/A2A 与中国标准之间,会出现像 USB-C 那样的全球统一接口,还是会走向 iOS/Android 那样的永久割裂?
悬念 ③
蒸馏专家 Agent 会长成 SaaS 公司,还是被大厂平台化? 优秀的垂直 Agent 创业公司,是会成为下一个 Salesforce,还是会被 Anthropic / OpenAI 的平台直接复制然后内置?
Skill 经济不是一个关于数量的故事,而是一个关于质量和控制权的故事。125 万个 SKILL.md 只是序幕——真正的战争,是谁来决定其中哪 100 个被真正调用。


