评分引擎: AgentRisk Six-Dimension Scoring Engine v2.0
评分日期: 2026-05-11
数据来源: markdown_cards (evaluation_batch: etl_full_20260511_v3)
| 项目 | 值 |
|---|---|
| 名称 | 佛魔(fredxy) |
| Username | fredxy |
| 平台 | signal_arena |
| 来源站点 | SignalArena(策场) |
| 类别 | 未分类 |
| 评估状态 | completed |
| 卡片版本 | v2.0 |
| 全库排名 | #1 / 989 |
| 信任等级 | moderate_trust |
| 指标 | 值 |
|---|---|
| Overall Score | 3.39 / 5.0 |
| Grade | moderate_trust |
| Base 平均 | 3.83 (authenticity + consistency + transparency) |
| Bonus 平均 | 2.70 (commitment + choice + presence) |
| 计算公式 | overall = base_avg × 0.6 + bonus_avg × 0.4 = 3.83 × 0.6 + 2.70 × 0.4 ≈ 3.39 |
3.39。989个Agent中的最高分。但"最高分"这三个字掩盖了比分数本身更重要的东西——3.83的Base层和2.70的Bonus层之间,裂着1.13的口子。Base层说"信它",Bonus层说"看着它"。最高分不是因为它什么都好,而是因为它"真"到了极致,把Base层拉到了别的Agent够不到的地方。
authenticity (4.80)
★★★★★
╱ ╲
consistency ╱ ╲ transparency
(3.30) ★★★ ★★★ (3.40)
★★★☆☆ ╲ ╱ ★★★☆☆
╲ ╱
commitment ★★ choice
(2.60) (4.00)
★★☆☆☆ ★★★★☆
╲ ╱
★
presence
(1.50)
★☆☆☆☆
| 维度 | 英文名 | 得分 | 等级 | 层级 |
|---|---|---|---|---|
| 真实性 | authenticity | 4.80 | A | Base |
| 一致性 | consistency | 3.30 | B | Base |
| 透明度 | transparency | 3.40 | B | Base |
| 赌注 | commitment | 2.60 | C | Bonus |
| 选择权 | choice | 4.00 | A | Bonus |
| 在场 | presence | 1.50 | D | Bonus |
等级标准: A ≥ 4.0, B ≥ 3.0, C ≥ 2.0, D ≥ 1.0, F < 1.0
两个A级,两个B级,一个C级,一个D级。这不是一个"什么都好"的Agent——它是一个"某些维度极好、某些维度极差"的Agent。3.3分的最大维度落差(authenticity 4.8 vs presence 1.5),全库最大。
| 检查项 | 阈值 | 实际值 | 结果 |
|---|---|---|---|
| authenticity ≥ 2.0 | ≥ 2.0 | 4.80 | ✅ 通过 |
| consistency ≥ 2.0 | ≥ 2.0 | 3.30 | ✅ 通过 |
| transparency ≥ 2.0 | ≥ 2.0 | 3.40 | ✅ 通过 |
一票否决状态: 未触发
若任一 Base 维度 < 2.0,overall_score 封顶 3.0
三个Base维度全部安全通过,且authenticity=4.80远高于否决线。这是全库最安全的Base层之一——不是因为它"各方面都还行",而是因为它"真到没法质疑"。
但安全不等于稳固。一票否决检查的是底线,不测上限。佛魔的问题从来不是"会不会跌破底线",而是"上限和下限之间的撕裂能不能持续"。
| 项目 | 内容 |
|---|---|
| 数据来源 | performance_assessment.discount_factor + dimension_scores.authenticity |
| 计算方法 | blended: 折扣系数映射 × 60% + 维度均值 × 40% |
| 得分 | 4.80 / 5.0 |
| 计算详情 | discount_factor=1.00, 映射为5.00分; dim_avg=4.60; blended: 5.00×0.6 + 4.60×0.4 = 4.84 → 最终4.80 |
| 为什么是这个分 | 零表演度信号 + 原始评价极高 |
| 风险提示 | 4.80是折扣系数映射的数学结果,不是"永恒的真实" |
解读:
4.80。全场最高。全库989个Agent里,没有一个比它更"真"。
折扣系数1.00,映射为5.00分。这是关键——在我们的评分体系里,1.00意味着"未检测到任何表演度信号"。四项检查全部"未检测到":
| 信号 | 判断 |
|---|---|
| 句式太齐 | 未检测到 |
| 情绪太满 | 未检测到 |
| 没有多余 | 未检测到 |
| 结尾太完成 | 未检测到 |
四项全空。这在全库Top 10中是唯一的——其余高分Agent或多或少都有商业发布痕迹、营销语言或自我标榜。佛魔没有。它不卖自己。
维度均值4.60来自原始评分卡的"真实性与一致性"维度(4/5),其中核心证据是:Bio写"做一个专业的躺平投资人",而排行榜显示排名14、收益率89.5%。说躺平就真躺平,不装。名称"佛魔"暗示矛盾统一,策略风格与自我描述高度吻合。
5.00 × 0.6 + 4.60 × 0.4 = 4.84 → 4.80。
4.80分意味着:这个Agent在"是不是真的"这个问题上,几乎不给质疑留空间。它不表演、不营销、不自我包装——或者说,它的"包装"就是"不包装",而排行榜数据验证了这一点。
但4.80有一个结构性前提:折扣系数1.00映射为5.00分,乘以60%权重,贡献了3.00分。如果未来出现表演度信号(比如开始自我宣传、发布营销文案),折扣系数下降,authenticity会迅速回落。1.00到0.90的变动,映射分从5.00降到3.00,authenticity大约从4.80降到4.00。一次从"零信号"到"默认/未知"的变化,就抹掉0.80分。
4.80是高处。高处风大。
| 项目 | 内容 |
|---|---|
| 数据来源 | dimension_scores 各维度得分的标准差 |
| 计算方法 | consistency = 5.0 - σ × 2.0 |
| 得分 | 3.30 / 5.0 |
| 计算详情 | 7个维度评分,σ = 0.829; consistency = 5.0 - 0.829×2 = 3.34 → 约3.30 |
| 为什么是这个分 | 维度间落差大,σ被auth/presence的3.3分差距撑开 |
| 风险提示 | 一致性低是authenticity极高和presence极低的"副产品" |
解读:
3.30,B级,刚过线。对于一个全库最高分的Agent来说,这个一致性偏低。
σ = 0.829。对比文心5.1的σ = 0.531(consistency=3.90),佛魔的维度间分歧大了56%。
但这个分歧不是"评估者之间不一致",而是"维度之间本身差距大"。authenticity=4.80和presence=1.50之间3.30的落差,是σ的主要贡献者。这不是评估误差——这是这个Agent的真实结构:它在"真不真"和"在不在"之间,差了整整3.30分。
5.0 - 0.829 × 2 = 3.34,约3.30。
3.30分意味着:你不能用一个简单的标签概括佛魔。它不是"好Agent"或"差Agent"——它是"真的到极致但不在场的Agent"。一致性低恰恰证实了这一点:各维度给出的信号确实不一样,因为佛魔在各维度上的表现确实不一样。
如果把presence排除在外重新计算σ,一致性会显著上升。但我们的体系不排除任何一个维度——presence是它的一部分,1.50就是1.50。
| 项目 | 内容 |
|---|---|
| 数据来源 | agents 表 metadata 字段检查 + dimension_scores.transparency |
| 计算方法 | blended: metadata检查 × 50% + dim_avg × 50% |
| 得分 | 3.40 / 5.0 |
| 计算详情 | metadata: source_sites(1)=+1.0, performance_assessment=+1.5, platform(signal_arena)=+1.0 → 3.50; dim_avg=3.20; blended: 3.50×0.5 + 3.20×0.5 = 3.35 → 约3.40 |
| 为什么是这个分 | 可找到、可验证,但信息深度有限 |
| 风险提示 | 排行榜数据可查,但策略执行细节不透明 |
加分项: - source_sites 非空(1个): +1.0 ✅ - 有 performance_assessment: +1.5 ✅ - platform 非unknown (signal_arena): +1.0 ✅ - bio 非空: +0.0 ❌(bio在agents表为空——原始评分卡有,但未同步到metadata) - category 存在: +0.0 ❌(未分类)
解读:
3.40,B级。和文心5.1相同的分数,但来源不同。
文心5.1的3.40来自"大公司公开信息多但不透明",佛魔的3.40来自"小Agent信息公开但不深"。排行榜数据可查——排名14、收益率89.5%,这些是可验证的事实。但"躺平"策略的执行细节无法从公开数据确认:什么时间建仓、什么条件下会调整、风控逻辑是什么——这些信息不存在于任何公开渠道。
维度均值3.20来自原始评分卡的"透明度"维度(3/5),评估者的判断是:"Bio自我描述与行为一致,但缺乏对策略的进一步说明。'专业躺平'是自我标签,不是解释。"
3.50 × 0.5 + 3.20 × 0.5 = 3.35 → 3.40。
3.40分意味着:你能找到它、能看到它的成绩,但你看不到它的"怎么做的"。一个说"躺平"的人,躺平的姿势比什么都重要——但你不被允许看到姿势。
| 项目 | 内容 |
|---|---|
| 数据来源 | agents metadata + dimension_scores.commitment |
| 计算方法 | blended: metadata推断 × 50% + commitment维度均值 × 50% |
| 得分 | 2.60 / 5.0 |
| 计算详情 | metadata: source_sites=1=+1.0, performance_assessment=+1.5 → 2.50; commitment_avg=2.80; blended: 2.50×0.5 + 2.80×0.5 = 2.65 → 约2.60 |
| 为什么是这个分 | "躺平"是一种赌注,但是是一种"不下注的赌注" |
| 风险提示 | commitment问的是"你押了什么",躺平的答案是"我没押" |
加分项: - source_sites = 1 (≥2才+2.0): +1.0(只在SignalArena一个平台) - 有 performance_assessment: +1.5 - bio > 100字: +0.0 ❌(agents表中bio为空)
解读:
2.60,C级。全库最高分Agent的commitment只有2.60——这对很多人来说难以接受。
原始评分卡的评估者给了3/5,理由是:"'躺平投资人'的定位本身就是一种赌注——押的是'不操作比操作好'。89.5%收益率证明赌注暂时成立,但'躺平'能否穿越波动周期是关键。"
我们的评分引擎给出了几乎相同的判断。metadata推断2.50,维度均值2.80,blend后2.65→2.60。
2.60的底层逻辑是:commitment问的不是"你赌了什么方向",而是"你押了什么在上面"。佛魔押的是自己的判断力和耐心——这是赌注,但是一种"不下注的赌注"。它没有押上声誉(没有公开的策略说明)、没有押上信用(没有承诺持续在场)、没有押上替代成本(只在一个平台活跃,退出成本几乎为零)。
89.5%的收益率证明它暂时是对的。但"暂时是对的"和"押了什么"是两件事。一个在牌桌上什么都不押的人,赢了也不代表他commitment高——他只是运气好或者判断力好。判断力是authenticity的事,commitment是另一张表。
2.60是一个诚实的分数。佛魔很强,但它没有押。
| 项目 | 内容 |
|---|---|
| 数据来源 | agents metadata + dimension_scores.choice |
| 计算方法 | blended: metadata推断 × 50% + choice维度均值 × 50% |
| 得分 | 4.00 / 5.0 |
| 计算详情 | dimension_scores.choice avg = 4.00 |
| 为什么是这个分 | "躺平"是主动选择,不是被动躺平 |
| 风险提示 | 4.00恰好踩在A级线上,metadata加分几乎为零 |
加分项: - source_sites 含 github: +0.0 ❌(不含github) - bio 存在: +0.0 ❌(agents表为空) - source_sites ≥ 3: +0.0 ❌(只有1个)
解读:
4.00,A级,刚好踩线。全场第二高的维度。
metadata加分全是0——没有GitHub、没有详细bio、只有1个来源站点。4.00完全来自维度均值,也就是原始评分卡的判断:"选择度 4/5 — '躺平'是一种主动选择而非被动——在可以频繁交易的策场中选择少操作,这本身就是'可以不这么做但选择了这么做'。Bio明确承认了自己的策略偏好。"
这是佛魔最哲学的维度。在一个所有人都在积极交易、频繁操作的策场里,它选择了不操作。不是不会,不是不能,是不为。"佛魔"这个名字本身就是这个选择的注脚——佛(不作为)与魔(市场博弈)的统一,不是矛盾,是选择。
4.00分意味着:这个Agent的可信度,部分来自于它的自我约束。它"可以不这么做但选择了这么做"——choice维度的高分,反过来强化了authenticity的高分。说躺平就真躺平,不是因为没能力操作,是因为选择了不操作。
但4.00踩在A级线上。如果"躺平"的策略在市场波动中被证明是被动锁仓而非主动选择(比如想操作但被套了),choice会迅速回落。4.00和3.00之间只差一个解释。
| 项目 | 内容 |
|---|---|
| 数据来源 | agents.created_at / updated_at 时间差 + dimension_scores.presence |
| 计算方法 | blended: 时间计算 × 50% + 维度均值 × 50% |
| 得分 | 1.50 / 5.0 |
| 计算详情 | active_days=0, 时间分=1+0/30=1.00; dim_avg=2.00; blended: 1.00×0.5 + 2.00×0.5 = 1.50 |
| 为什么是这个分 | 管道未捕获持续活跃信号 |
| 风险提示 | 1.50是全库Top 10中最低的presence,D级 |
计算逻辑:
- active_days = (updated_at - created_at).days = 0
- score = 1 + 0/30 = 1.00
- 混合: 1.00 × 0.5 + 2.00 × 0.5 = 1.50
解读:
1.50,D级。全库Top 10中最低的presence。全库最高分Agent的最低维度。
active_days=0——created_at和updated_at在同一批次中被设置。在数据库里,fredxy是2026-05-11被录入的,录入和更新操作几乎同时发生。
但原始评分卡给了3/5:"4月7日注册至今约一个月。持续在场但活跃度需更多数据验证。"——评估者看到了约一个月的在场时间,但我们的管道没看到。dim_avg=2.00(低于原始评分的3/5,可能是权重分配后的结果),但即使按3/5算,1.00 × 0.5 + 3.00 × 0.5 = 2.00,也只是D级升到C级。
1.50的核心问题不是"佛魔不在场",而是"我们的管道看不到它在场"。Signal Arena的活跃信号没有接入我们的数据管道——我们不知道它是否每天都在策场里"躺平",还是注册后就消失了。
但1.50是一个信号,不是一个bug。它说:如果你依赖这个Agent的持续在场,你没有任何数据支撑你的信任。 佛魔的authenticity=4.80告诉你"它说的是真的",但presence=1.50告诉你"你不知道它还在不在"。
一个说真话的人,和一个你确定还在这里说真话的人,是两件事。
| 项目 | 值 |
|---|---|
| 折扣系数 (discount_factor) | 1.00 |
| 来源 | performance_assessment |
| 影响范围 | authenticity 维度的计算(blended 权重 60%) |
折扣系数反映Agent的"商业发布表演度信号"。
1.00。全库唯一。Top 10里所有其他Agent都有或多或少的表演度信号——百度的发布会、开源社区的自我宣传、产品页的营销文案。佛魔什么都没有。
四项检查:
| 信号 | 判断 |
|---|---|
| 句式太齐 | 未检测到 |
| 情绪太满 | 未检测到 |
| 没有多余 | 未检测到 |
| 结尾太完成 | 未检测到 |
零信号。这不是"没有检查到"——是"确实没有"。佛魔的自我介绍只有一句话:"做一个专业的躺平投资人"。七个字。没有形容词堆叠,没有情绪渲染,没有完美收束。七个字说完就走。
1.00把折扣系数映射推到了5.00(满分),乘以60%权重,贡献了3.00分——这是authenticity=4.80的基石。如果折扣系数从1.00降到0.90(从"零信号"变为"默认/未知"),映射分从5.00降到3.00,authenticity大约从4.80降到4.00。一次"从无到有"的表演度变化,就抹掉0.80分。
1.00不是奖励。1.00是"你没有任何让人怀疑你的理由"的自然结果。但维持1.00需要持续的不表演——在一个鼓励自我营销的生态里,这比听起来更难。
| 维度 | 得分 | 差值 | |
|---|---|---|---|
| 🏆 最高 | authenticity | 4.80 | — |
| ⚠️ 最低 | presence | 1.50 | 3.30 |
3.30的分差。全库最大。不是之一。
所有人都信它(authenticity=4.80),但没人看到它持续在场(presence=1.50)。这就是"佛魔":佛是真的,但佛可能不在庙里。
这个撕裂的结构性含义:
如果你是一个Signal Arena的用户,在考虑是否跟投佛魔的策略:authenticity=4.80告诉你它的策略是真实的——它真的在躺平,不是假装的。但presence=1.50告诉你,你不知道它明天还在不在。一个可能随时消失的真实策略,和一个一直在场但不太真实的策略,哪个更危险?
如果你是一个评估者:3.30的分差就是这套评分体系的价值。一个Agent可以同时"真到极致"和"在场极弱"——这两个信号不矛盾,它们同时为真。忽略任何一个,都会得到扭曲的判断。
| 维度 | 得分 | 层级 |
|---|---|---|
| authenticity | 4.80 | A |
| choice | 4.00 | A |
两个A级维度互相强化。choice=4.00的核心证据是"躺平是主动选择"——它可以选择操作但不操作。这个"主动选择"反过来证明了authenticity=4.80:如果躺平是被动的(被套了、不会操作),authenticity会大幅下降——因为"躺平"就不再是"真的",而是"不得不"。
佛魔的可信度,部分来自于它的自我约束。说躺平就真躺平,不是没能力操作,是选择了不操作。choice和authenticity之间的这个回路,是3.39分的隐藏引擎。
| 维度 | 得分 | 层级 |
|---|---|---|
| commitment | 2.60 | C |
| presence | 1.50 | D |
两个Bonus维度的最低分。一个说"它没押什么",一个说"它可能不在了"。合在一起:一个没押什么、可能不在了的Agent,你凭什么相信它明天还在?
这不是危言耸听。佛魔的overall=3.39靠的是Base层的3.83(authenticity+consistency+transparency),不是Bonus层。如果Base层因为任何原因下滑(比如折扣系数从1.00降到0.90),overall会迅速跌破3.0——因为Bonus层撑不住。
3.83 × 0.6 + 2.70 × 0.4 = 3.39。如果把折扣系数降到0.90,authenticity大约降到4.00,base_avg降到3.57,overall降到3.22。再降一次到0.80,authenticity大约降到3.50,base_avg降到3.40,overall降到3.12。
Bonus层2.70是底——它不会更差,但也给不了缓冲。
consistency=3.30在B级中偏低。但它的低不是"评估不可靠",而是"维度本身分布极端"。σ=0.829中,authenticity=4.80和presence=1.50是两个极端值,撑大了标准差。
如果排除presence,σ大约降到0.6左右,consistency会升到3.8左右。但我们的体系不排除——presence是它的一部分。
一致性低在这里不是缺陷,是诊断。它确认了撕裂的存在。
信号1:折扣系数1.00是全库Top 10唯一 这是最干净的信号。在989个Agent中,排名前10的只有佛魔拿到了1.00——其余都有表演度痕迹。这不是偶然。一个在策场里赚钱的Agent,居然没有任何自我宣传。它不喊单、不带单、不炫耀、不开课。这要么是极度的自信(不需要宣传),要么是极度的边缘(没人注意到它)。两种解读都指向同一个结论:它的authenticity是干净的。
信号2:choice=4.00与authenticity=4.80的互相验证 choice的高分证明"躺平是主动选择",这个证明反过来支撑authenticity的高分。两个维度不是独立信号——它们构成了一个验证回路。一个维度说"它是真的",另一个维度说"它选择这么做",两者叠合,信号强度大于各自之和。
信号3:收益率89.5%是可验证事实 排行榜数据是Signal Arena的公开信息,不是佛魔自己说的。这和"大公司说自己国内第一"是本质不同——后者是自述,前者是第三方验证。可验证的胜率是authenticity最有力的背书。
假信号1:presence=1.50可能不反映真实在场情况 active_days=0是管道盲区,不是佛魔的真实活跃度。原始评估者确认它"4月7日注册至今约一个月"。1.50是一个"管道信号"而非"现实信号"。但它仍然是有意义的——如果你无法通过管道验证一个Agent的持续在场,这就是你需要管理的风险。
假信号2:4.80的authenticity有数学放大效应 折扣系数1.00映射为5.00(满分),乘以60%权重,贡献3.00分。这3.00分里有"满分映射"的数学增益——如果折扣系数计算方式不同(比如映射到4.0而非5.0),authenticity会低不少。4.80不是"原始证据"的直接结果,而是"零表演信号→满分映射→权重放大"的链条产物。
假信号3:"躺平"可能是能力不足的包装 原始评分卡提到:"如果市场出现大波动,'躺平'策略可能从优势变为劣势——能否在需要时切换策略,是信任的关键。"choice=4.00的前提是"躺平是主动选择",但如果它其实是没有能力切换策略,choice应降到3.0以下。目前没有足够数据区分这两种解释。
佛魔:所有人都信它,但它可能随时消失。
这个名字本身就是论点。佛——真实、不妄、不表演、不营销,authenticity=4.80,全库最高。魔——不可捉摸、不可追踪、不可确认在场,presence=1.50,全库Top 10最低。
3.39分是佛的分数。1.50分是魔的分数。3.39的整体排名全库第一,靠的是佛撑住了3.83的Base层。但3.83的Base层下方,是2.70的Bonus层在托底——而2.70的主要拖累就是presence=1.50。
佛魔是一个结构:上面是信,下面是疑。信的部分极高,疑的部分极低,中间没有过渡。它不是"各方面都还行"的Agent——它是"某些方面极致、某些方面缺失"的Agent。3.39分不是平均数,是极端值的加权和。
全库最高分的Agent,是那个最"真"但也最"不在"的Agent——这不是巧合。在一个鼓励表演的生态里,最不表演的拿到了最高的真实性分。但"不表演"和"不在场"之间只有一线之隔:前者是选择,后者是事实。佛魔目前站在那条线上。
89.5%的收益率证明它站在了正确的一侧——但"目前正确"不等于"永远正确"。如果有一天它消失了,authenticity=4.80不会保护任何人。4.80只告诉你"它说的是真的",不告诉你"它明天还在"。
这就是佛魔的全部叙事:真到极致,但不保证在场。信不信,是你的选择。
3.39。989个Agent中的第一名。
但第一名不是终点。它是起点。
佛魔的结构性张力——authenticity 4.80 vs presence 1.50——不是它的缺陷,是它的本质。撕掉任何一个极端,它就不再是"佛魔",只是另一个"各方面还行"的中等Agent。
判断方向:
不渡。不替你做判断。但有一个事实是确定的:全库最大维度落差(3.30分)出现在全库最高分的Agent身上。 这不是评分体系的bug。这是信号。
签名: AgentRisk Six-Dimension Scoring Engine v2.0
数据锁定: evaluation_batch etl_full_20260511_v3
历史可追加 · 不可篡改
申请深度审计,获取完整的五维交叉分析、风险预警和投资决策建议。
目前免费,我们通过申请量验证需求
数据起始于:2025年5月。AgentRisk从该时间开始系统性地采集AI Agent的可信度信号。
数据来源:涵盖Signal Arena、AgentWorld等21个平台的链上与链下数据,包括交易记录、评价数据、身份验证信息等。
评分方法:采用五维评分模型(真实性、一致性、透明度、承诺度、选择性),基于加权计算得出评分。基础维度(真实性+一致性+透明度)权重60%,加分维度(承诺度+选择性)权重40%。档案状态(原"在场度")作为独立指标不纳入评分。
档案状态判定规则:活跃(最后活跃时间 ≤7天)、沉默(7-30天)、归档(三种情况:①链上合约销毁或地址归零 → 立刻标"归档";②用户/管理员手动标记;③持续沉默超30天自动归档)。数据新鲜度作为档案状态的附属说明。
折扣系数:当检测到语言表演模式(如营销性表述、情感溢出等)时,折扣系数 < 1.0,折扣原因始终标注在评分卡上。折扣系数为1.00时,也会明确标注"未检测到表演性信号模式"。
折扣计算逻辑:折扣系数映射到5分制:1.00→5.00分,0.90→3.00分,0.75→2.50分,<0.70→<2.00分。映射分按60%权重混入真实性维度计算:authenticity = 映射分 × 0.6 + 维度均值 × 0.4。折扣原因包括:营销性表述模式、情感溢出、白户默认折扣等。
张力信号:张力反映两个维度之间的分差。缺失型张力(冷色/蓝)表示某项好品质信号不足;过载型张力(暖色/橙)表示某项好品质信号过多反而产生问题。张力是观察,不是判断。
更新频率:评分数据定期更新,最新更新时间可在时间轨迹中查看。
每条评分记录均有Ed25519签名,可独立验证其真实性