AI 护 AI,铸盾大模型!瑞莱智慧发布人工智能安全平台

时间:2023-07-08 11:22:39 来源: 文汇


近几个月来,以 ChatGPT 为代表的生成式人工智能狂飙突进,大模型时代已然降临。在 " 百模大战 " 越战越酣之时,大模型其内生及衍生安全威胁也愈演愈烈,数据泄露、幻想、生产歧视、排斥和有害内容等安全问题层出不穷。如何将制约大模型应用发展的 " 绊脚石 " 变为 " 压舱石 "?


(资料图片)

7 月 7 日,在 2023 世界人工智能大会上,清华大学人工智能研究院孵化企业瑞莱智慧(RealAI)发布了全新人工智能安全平台 RealSafe3.0,为加速发展的大模型系好 " 安全带 "、把好 " 方向盘 "。

"双刃剑"效应,制约大模型落地

新技术往往会伴随新的安全问题。自人工智能诞生的那一刻起,创造技术的力量和控制技术的力量就存在不对等,大模型亦是如此。尽管它的强大让人类瞥见了通用人工智能的曙光,但也让众多学界、业界人士心生忧惧。近段时间,关于大模型的安全隐患多次被提及,比如秘密文件可能遭泄露、添加无意义的字符后大模型竟给出完全相反的回答、输出违法有害信息、隐含某些偏见和歧视内容等。

这些风险已引起各国高度关注。国家互联网信息办公室 4 月 11 日起草《生成式人工智能服务管理办法 ( 征求意见稿 ) 》;欧盟于 6 月 14 日投票通过了《人工智能法案》,全球 400 多位专家甚至发布联名公开信,提出对于人工智能发展过快、同时缺乏监管的担忧。

瑞莱智慧联合创始人、算法科学家萧子豪认为,大模型 " 落地难 ",本质是因为当前仍处于 " 野蛮生长 " 阶段,还未找到场景、风险和规范三者间的平衡点。而要探寻这一平衡点,目前缺少易用和标准化的工具,无法科学评判大模型能否同时实现规范和低风险,也难以进一步定位问题并给出优化建议。

源头上找症结,技术上找对策

基于上述问题,瑞莱智慧在世界人工智能大会上正式发布人工智能安全平台 RealSafe3.0 版,集成了主流及企业独有的世界级安全评测技术,能提供端到端的模型安全性测评解决方案,解决当前通用大模型安全风险难以审计的痛点问题。相较上一版本,RealSafe3.0 新增了对通用大模型的评测,评测维度已覆盖数据安全、认知任务、通用模型特有漏洞、滥用场景等近 70 个方面,未来还会持续扩增测评维度。

萧子豪说,评测只是手段,帮助通用大模型提升安全性才是目的。而瑞莱智慧的办法是从源头上入手,找准症结,基于自研多模态大模型底座,用 AI 的神奇守护神奇的 AI。比如,由于数据集的质量直接影响模型的内生安全,因此 RealSafe3.0 集成了多个自研模型和专家论证高质量数据集,帮用户修复模型中的问题。针对黑盒不可解释的通用大模型,自研的红队对抗模型取代人工设计问题,能自动化地挖掘出更多漏洞,真正从源头化解风险。

此外,新安全平台还能通训练,推动大模型安全性迭代提升。瑞莱智慧推出的教练模型,能对被测大模型进行多轮次的提问 - 回答训练,使其掌握好坏答案的要点及区别,直至问答能力迭代至最优。值得一提的是,教练模型基于瑞莱智慧自有数据集,还经过数十位价值观领域的专家论证,确保了输入数据高质量且领域多元。

用AI守护AI,用智慧驾驭智能

除了可提升生成式大模型安全性的 RealSafe3.0,瑞莱智慧此次还带来了能够防范生成式人工智能恶意滥用的 DeepReal2.0,该技术此前名为深度伪造内容检测平台,能检测 Deepfake 内容,此次则新增两个模块,可以检测 Diffusion、LLM 这两类 AI 生成的数据,从而对生成式人工智能技术滥用进行管控和治理。同时也支持检测图像、视频、音频、文本等是否伪造,适用于打击网络诈骗和声誉侵害行为、检测网络内容合规性、检测音视频物证真实性等场景。

萧子豪说,从古至今,技术始终都是一把‘双刃剑’。通用人工智能的时代必将到来,如何让人工智能扬长避短,如何用人类智慧驾驭人工智能,是从业者的一道长久课题。事实上,这也是瑞莱智慧一直努力的方向。自 2018 年成立以来,瑞莱智慧坚持源头创新和底层研究,致力于研究和发展安全可控的第三代人工智能技术,建立通用 AI 模型能力和人工智能安全能力。

未来,在通过 RealSafe3.0 保障通用大模型和专有模型安全、可靠、可控的同时,瑞莱智慧也将持续迭代技术、打磨产品,以确保在这场人工智能安全 " 攻防战 " 中始终掌握主动,将人工智能这一 " 关键变量 " 化为高质量发展的 " 最大增量 "。

作者:张懿

编辑:商慧

* 文汇独家稿件,转载请注明出处。

关键词:

网站简介 网站团队 本网动态 友情链接 版权声明 我要投稿

Copyright© 2014-2020 中原网视台(www.hnmdtv.com) All rights reserved.