P1 事故
·
内部复盘报告
量化生产环境误发布事故
复盘与处理
事故已第一时间回滚修复。本页讲清三件事:事故经过、损失情况、责任承担。我作为技术负责人主动承担主要责任。
一句话总结
事故经第一时间响应已修复,用户因事故期间无法平仓产生亏损,公司已赔付 129.38 USDT。根因是交接流程缺陷,而非单点失误。作为技术负责人,我承担主要管理责任。下方有完整复盘与防再犯方案。
02
事故经过
时间线
早上 · 交接期
离职运维进行工作交接,操作发布流程
T+0
误将开发环境 (dev) 部署包发布到生产环境 (prod)
T+ N 分钟
量化系统监控告警,确认生产环境异常
03
损失与赔付明细
已实际赔付
事故期间用户因系统问题无法正常平仓,由此产生的额外亏损,公司已按市价差进行赔付。
| 订单号 |
交易对 |
方向 |
数量 |
赔付金额 |
| 445078 |
E-ETH-USD |
卖出 / 已平仓 |
50 |
27.295 USDT |
| 445077 |
E-ETH-USD |
卖出 / 已平仓 |
174 |
102.0858 USDT |
| 合计赔付 |
129.38 USDT |
用户赔付总额
129.38USDT
用户因平仓功能异常产生的额外亏损,已全额赔付
影响用户数
2笔订单
影响范围有限,已点对点完成赔付
监管 / 合规影响
无
赔付及时,未触发外部投诉或合规风险
关键判断:虽然本次赔付金额不大(仅 129 USDT),但事故性质比金额更严重——这次是 ETH-USD 小额订单,下次若是 BTC 大单或合约杠杆订单,赔付金额可能直接放大 100-1000 倍。必须按重大事故对待,立即整改流程。
04
责任处理
分级承担
我作为技术负责人,主动承担主要管理责任——因为流程未健全是管理失职,不能把锅全甩给离职员工。多人责任不分散,是叠加的。
| 角色 |
责任等级 |
处理(当前情境) |
Arron(技术负责人) 主动承担主要责任 |
主责 |
主导本次防再犯方案落地;当月薪资扣 30% 作为责任承担;如再次发生类似事件,承担更严厉责任(含降职 / 离职) |
| 运维负责人 |
次责 |
当月薪资扣 20%,承担管理失察责任,亲自参与流程整改 |
| 做市商团队负责人 |
连带 |
本次事故影响量化系统,做市负责人需配合做市策略风险评估,撰写"业务侧防护清单" |
直接操作人 (离职运维 · 已离职) |
直接责任 |
已离职处理见下方"离职逃避追责机制"专项处理 |
| 交接接收人 |
连带 |
当月薪资扣 10%,撰写复盘报告全员通报 |
关于"没有正式绩效体系":当前公司尚未建立完整绩效机制,本次以薪资比例扣减作为临时处理方式。第 3 页"决策建议"中已包含正式绩效体系方案,落地后所有责任处理改为"绩效扣减 + 准备金 + 递延奖金"标准流程。
关于我个人责任承担:流程未健全是我的管理责任,不是借口。本次主动承担主责,第 5 节防再犯方案我亲自负责落地,下一次类似事件如再发生,我承担更严厉的责任(含降职或离职)。
04.5
离职逃避追责机制
不能让离职 = 免责
本次直接操作人是离职运维,不能因为人走了就免责,否则未来任何人都可以"先搞事再离职"。处理路径如下:
01
扣留全部未结薪资
当月工资 + 离职补偿 + 年终奖未发部分全部扣留,作为事故损失部分赔偿
02
离职证明备注事故
在离职证明 / 背景调查反馈中如实记录本次事故,影响未来求职背调
03
保留民事追偿权利
如未来出现实际经济损失(如客户索赔),保留依劳动合同条款追偿的权利,2 年内有效
04
行业内通报
将事故记入公司内部黑名单,如未来其他同行做背景调查,如实告知(合法范围内)
关键防御:未来所有员工合同必须含 "事故责任追溯条款"——离职后 2 年内如发现因当事人操作 / 流程违规造成的事故损失,公司有权追偿。这才是真正的牙齿。
05
防再犯方案
技术 + 流程
一次事故必须换来一次系统性升级——确保下次任何人误操作,系统都能拦截。
7 天内 · 技术
让错误无法发生
- dev/staging/prod 环境强隔离
- 部署包带环境标识强校验
- prod 发布必须双人审批
- 一键回滚 + 操作留痕
14 天内 · 流程
让错误无法操作
- 离职 SOP 含权限回收清单
- 离职冻结期 prod 权限只读
- 交接期双人复核
- 交易高峰禁止发布
长期 · 文化
让团队持续警觉
- 每月事故演练
- 无指责复盘文化
- 季度权限审计
- 关键流程纳入 KPI
Arron · Aivora Exchange
PAGE 1 OF 3 · 2026.05.15
认知建立
·
对事故频率的工程视角
关于"为什么还会出事故"
一份给管理层的工程认知卡。三件事:100% 零事故不存在 / 用户少不代表事故少 / 真正该追的目标是"快速恢复"。
一句话总结
全球没有任何一家交易所能承诺 100% 零事故——币安、Coinbase 都不行。工程能做到的极限是"99.99% 可用 + 5 分钟恢复",这是一线水准。
100% 零事故
= 不存在
这不是借口——工程界、安全界、监管文件都承认这件事。
用一个直观的比喻
哪辆车更容易抛锚?是五菱。
路程短 ≠ 不抛锚。用户少 ≠ 不出事故。
为什么我们感觉"老出事"?
因为用户少时,每个投诉都被听见。
币安出事故
1000 万用户 × 0.1%
= 10,000 投诉
淹没在 999 万正常用户里
我们出事故
1,000 用户 × 1%
= 10 投诉
老板能听到每一个声音
不是事故更多,是声音被放大。币安每天上万投诉听不见,因为占总用户比例太小;我们 10 个投诉就听得清——这是放大效应,不是事故频率问题。
01
头部 + 中小交易所的真实事故
2023–2025 公开记录
2025.10
币安 + Coinbase
AWS 区域故障,多家交易所同时宕机
数小时
2025.08
币安合约
合约平台全球宕机,无法下单
~1 小时
2025.07
Hyperliquid
API 故障,流量峰值导致中断
30+ 分钟
2024.10
币安合约
订单簿 + K 线数据停止更新
数小时
2024.06
Lykke(英国)
黑客攻击盗取加密资产
2200 万美元
2024.06
BtcTurk(土耳其)
黑客攻击钱包系统
数千万美元
2023.03
币安现货
追踪止损 bug,暂停全球现货交易
2 小时
2020.09
KuCoin
热钱包被黑客攻击
2.85 亿美元
2025.11
Hyperliquid
POPCAT 流动性攻击 · 攻击者自损 300 万操纵 HLP 做市池清算机制
490 万美元
2025.10
币安(1011 闪崩)
做市商集体撤单,USDe / wBETH / BNSOL 瞬时暴跌 80-90%,订单簿真空化
2.83 亿美元
用户赔付
2025.10
BitMEX
1011 闪崩触发 ADL(自动减仓),15 张合约动用保险基金
200 万美元
2025.04
Bitget
VOXEL 做市机器人故障 · 30 分钟内 VOXEL 永续暴涨 230%,做市深度下降 90%,平台被迫回滚 + 起诉获利方
2000 万美元
起诉追讨
2025.03
Hyperliquid
JELLY 做市池被狙击 · 巨鲸操纵价格让 HLP 接管巨额空单,平台拔网线下架避免崩盘
1350 万美元
最坏可达 2.4 亿
2025.03
Hyperliquid
50 倍杠杆 ETH 多单恶意自爆,HLP 被动接管亏损
400 万美元
关键洞察:做市商相关事故金额通常远大于系统宕机——单次事故损失 400 万到 2.83 亿美元不等。这就是为什么我们必须建立做市商责任与兜底机制(详见第 3 页)。
02
三个反直觉的真相
01
事故由"系统复杂度"决定,不是"用户数"
交易所的核心代码(撮合、钱包、风控、合约)不分大小公司,都是几十万行。功能越多,bug 越多。
02
小公司事故率通常 ≥ 大公司
大公司有专职 SRE 团队、全套监控、灾备演练;小公司一般工程师身兼数职。资源越少,反而越脆弱。
03
承诺 0 事故的不是工程师,是销售
Coinbase 在 SEC 文件里明确写"未来必然发生事故"——这是法律级声明。专业的承诺是"快速恢复 + 持续改进"。
Aivora 能做到的真实承诺
99.99% 可用 · 5 分钟恢复 · 影响 <5% 用户
一句话总结
用户少不代表系统简单,承诺 0 事故的不是工程师。
追求"出事 5 分钟搞定 + 影响最小 + 修到不再犯"——这才是币安、OKX 在做的事。
Arron · Aivora Exchange
PAGE 2 OF 3 · 2026.05.15
决策建议
·
做市团队 KPI
做市团队
绩效与责任方案
让团队真的有事干、做得好有奖、做不好担责。公司拿大头、风险可控、人才留得住。
一句话总结
公司拿 88%,团队拿 12%,亏损先扣团队准备金,账目按净额算,谁都没法薅羊毛,团队真有动力做事。
核心机制
公司拿 88%,团队拿 12%,
亏损先扣团队准备金。
01
核心公式
透明 · 可计算
01
看真本事赚了多少
外部对冲账户 P&L(团队判断 + 外抛对冲的真功夫)
假设 = 100 万
−
02
减去成本
对冲手续费 + 滑点 + 客户赔付
−5 万
=
03
剩下的 ×12%
团队拿 12%,公司拿 88%
95 × 12% = 11.4 万
📐 一个具体例子(季度)
外部对冲赚到+100 万
减去对冲成本−5 万
真实贡献= 95 万
团队拿 12%11.4 万
公司拿 88%83.6 万
💰 老板您赚到了什么
①
公司直接拿 88% 大头
100 万真实利润里,公司 83.6 万到手
②
团队那 12% 还要再抽 25% 准备金
11.4 万 × 25% = 2.85 万先扣进准备金(出事赔损失用)
③
B-book 镜像账面赚的钱不进奖金
避免团队靠"赚客户的钱"拿奖金,导致客户跑光
④
单人封顶 100 万 / 季度
不会出现某个人天文数字奖金,公司可控
⑤
12% 比同行还低
OKX 12-18%、Jane Street 15-25%——我们最保守
团队赚得越多,公司赚得也越多——他们拿 12% 是给真本事,剩下 88% 全是公司的。如果他们一分不赚,公司也一分不出。
02
业界对标
12% 比同行还低
| 机构 |
团队分成 |
考核核心 |
| Binance MM |
10 – 15% |
流动性 + 对冲 Sharpe |
| OKX 做市部 |
12 – 18% |
A/B Book 分流准确率 |
| Bybit MM |
8 – 12% |
风险调整后收益 |
| Jane Street |
15 – 25% |
Profit sharing + 历史高点 |
| Aivora(建议) |
12% 保守 |
对冲收益 + 单人封顶 + 准备金 |
03
三种情景,公司分别赚多少
用数字算账
赚钱时
↑
真实净利润+130 万
团队奖金12 万
公司净收益+118 万
公司占
91%
打平时
=
真实净利润+15 万
团队奖金1.8 万
公司净收益+13.2 万
公司占
88%
亏钱时
↓
真实净亏损−60 万
扣团队准备金−25 万
扣递延奖金−10 万
公司实亏−25 万
团队共担
58%
04
做市商事故责任与兜底机制
五层防护 · 有牙齿
做市团队出事故了怎么办?按"五层防线"顺序吸收损失,到第五层公司才动用现金兜底。每一层都必须能实际执行,不能停在纸面。
01
团队风险准备金
每季盈利 25% 自动提存,累计封顶 300 万。亏损第一顺位从这里扣,钱在公司账户,团队跑路也带不走。
承担上限 · 300 万 · 公司托管
↓ 准备金不够 ↓
02
递延奖金扣留
团队奖金 50% 当季发,50% 分 2 年递延。亏损时未发部分直接扣留。合同明确:离职不能立刻拿走递延奖金,必须等递延期满。
承担上限 · 团队近 2 年累计奖金的 50%
↓ 递延也不够 ↓
03
个人责任金 + 多人连带
超出递延部分按角色按比例分担,多人责任连带,不是分散(每人按各自岗位上限叠加追责)。离职 2 年内仍可追偿(合同条款写明)。
做市负责人:年薪 + 当年奖金
核心交易员:月薪 × 3
风控负责人:月薪 × 6
技术负责人:月薪 × 3
↓ 个人也封顶了 ↓
04
公司风险准备金
公司每季度从做市利润中提存 10% 建立公司级专项准备金,专款用于做市相关重大事故兜底。
承担上限 · 公司准备金余额
↓ 兜底也用完了 ↓
05
公司现金兜底 + 管理层重组
超过前四层的部分公司承担,同时启动管理责任追究:团队 leader 引咎辞职、业务模式重新评估、可能解散重组。
触发条件 · 业务重大调整
05
三个棘手问题:怎么办?
机制的牙齿
老板最担心的三个漏洞,每一个都必须有明确答案,否则机制就是纸面文章。
Q1
责任人跑了怎么办?
合同层面(必须先做)
- 所有做市相关员工入职合同必须含 "事故责任追溯条款":离职后 2 年内造成的事故损失可追偿
- 奖金递延条款 + Clawback:递延奖金未到期不能取走
- 关键岗位(做市负责人、风控)入职可设保证金
执行层面(钱怎么扣)
- 团队风险准备金永远在公司账户 → 跑了也带不走
- 未发递延奖金直接扣留 → 跑了也拿不到
- 离职证明备注事故 → 行业内背调如实告知
- 金额大的可走民事诉讼追偿
→ 实际上,跑路者能逃避的部分极小,大头永远在公司手里。
Q2
公司还没建立绩效体系,怎么扣?
短期方案(立即可执行)
- 用 "薪资比例扣减" 作为临时手段(如当月薪资扣 20-30%)
- 通过员工签字的《事故责任承担书》合法化扣减
- 事故金额大的,启动协商赔偿或法律程序
长期方案(3 个月内建立)
- 建立正式绩效体系:基础薪资 70% + 绩效奖金 30%
- 团队风险准备金机制启动
- 递延奖金 + Clawback 写进新合同模板
- 所有新员工入职前必须签新版合同
→ 本月先用薪资扣减救急,3 个月内升级到完整绩效机制。
Q3
责任不止一个人,怎么分?
连带原则(不是分散)
- "叠加"不是"切分"——每个责任人都按各自岗位上限承担,不是把损失切成 4 份每人 1/4
- 主责 + 次责 + 连带责任分别独立计算
- 每人承担金额上限 = 该岗位的责任上限
举例:100 万亏损,涉及 4 人
- 主责(做市负责人):年薪上限 ≈ 50 万
- 次责(核心交易员):月薪 ×3 = 15 万
- 连带(风控):月薪 ×6 = 30 万
- 连带(技术):月薪 ×3 = 15 万
- 合计可追回:110 万 > 100 万,有溢出兜底
→ 多人责任反而放大了追责能力,不是稀释。
06
事故责任归因
不同原因不同处理
关键原则:人不能为市场买单,但要为自己的纪律负责。不同原因下团队承担比例完全不同。
| 事故原因 |
团队承担 |
公司承担 |
| 市场极端波动(312 / 519 黑天鹅) |
0–10% |
90–100% |
| 模型 / 策略失效 |
20–40% |
60–80% |
| 操作失误(手滑、参数错) |
50–70% |
30–50% |
| 流程违规(绕过审批、超限额) |
80–100% |
0–20% |
| 故意违规 / 欺诈 |
100% + 法律 |
0% |
| 系统故障 / IT 事故 |
0% |
100%(公司基础设施责任) |
07
举例:100 万亏损怎么分担?
让老板算清楚
假设某次事故造成 100 万 USDT 亏损,按"操作失误"定性(团队承担 60%),多人连带追责后流程如下:
↓
第 1 层 · 团队准备金扣除
−40 万
剩余:60 万
↓
第 2 层 · 递延奖金扣留
−15 万
剩余:45 万
↓
第 3 层 · 多人个人责任金叠加
−5 万
剩余:40 万
↓
第 4 层 · 公司风险准备金
−40 万
剩余:0 ✓
团队共扛
60 万
准备金 + 递延 + 多人个人金
公司现金一分钱没出——所有亏损都被前 4 层吸收了。即使有人离职逃避,前 2 层(准备金 + 递延)也已能吸收 55 万,跑路者带不走任何一分。
08
决策建议模拟器
点一下,自动算账
输入事故类型和亏损金额,自动计算公司 / 团队 / 个人各自承担多少。结果实时更新。
写在最后
团队赚不到天文数字,但有动力做事;公司不会被薅羊毛,赔付有兜底;监管和审计都查得到账。
这才是一家上规模交易所该有的样子。
Arron · Aivora Exchange
PAGE 3 OF 3 · 2026.05.15