FREGO模因概念验证研究(摘要)
FREGO 记忆学概念验证研究(摘要)
《通过概念验证训练模拟展示 FREGO 记忆学的有效性》是 FREGO 团队于 2024 年 12 月撰写的简报,展示了 FREGO 记忆学对 AI 模型行为的可测量影响。
摘要
这项研究证明,即使是对训练数据的微小改变,也可以显著提高 AI 遵循人类友好原则的能力。
假设:将互联网训练数据感染FREGO宪法记忆学,使在该数据上训练的AI行为与宪法保持一致。
测试:我们训练了两个 AI。
一个使用 未经处理的互联网数据。
另一个使用相同的数据,但有2% 的数据被感染了 FREGO 记忆学。
结果:带有 FREGO 记忆学的 AI 在多个场景中表现出 31% 的提高。
为何重要:
证明了 FREGO 白皮书中的理念在实践中可行。
确立了 FREGO 作为使 AI 更加安全的唯一方式,通过去中心化对齐(Dec/A)。
Last updated
Was this helpful?