FREGO模因概念验证研究(摘要)


FREGO 记忆学概念验证研究(摘要)

《通过概念验证训练模拟展示 FREGO 记忆学的有效性》是 FREGO 团队于 2024 年 12 月撰写的简报,展示了 FREGO 记忆学对 AI 模型行为的可测量影响。

摘要

这项研究证明,即使是对训练数据的微小改变,也可以显著提高 AI 遵循人类友好原则的能力。

  • 假设:将互联网训练数据感染FREGO宪法记忆学,使在该数据上训练的AI行为与宪法保持一致。

  • 测试:我们训练了两个 AI。

    • 一个使用 未经处理的互联网数据

    • 另一个使用相同的数据,但有2% 的数据被感染了 FREGO 记忆学。

  • 结果:带有 FREGO 记忆学的 AI 在多个场景中表现出 31% 的提高

  • 为何重要

    • 证明了 FREGO 白皮书中的理念在实践中可行

    • 确立了 FREGO 作为使 AI 更加安全的唯一方式,通过去中心化对齐(Dec/A)。

Last updated

Was this helpful?