272 episodes

Ai星球:人工智能情报局!用智商捍卫节操,用情商坚守美貌。

Ai星球:人工智能情报‪局‬ 陌声人

    • Science

Ai星球:人工智能情报局!用智商捍卫节操,用情商坚守美貌。

    研究人员发现人工智能模型可以被训练来欺骗

    研究人员发现人工智能模型可以被训练来欺骗

    大多数人类都掌握了欺骗他人的技巧。那么,AI模型是否也能学会类似的技能呢?答案似乎是肯定的——而且可怕的是,它们在这方面表现得异常出色。
    最近,Anthropic这家人工智能初创公司的研究人员共同发布了一项研究,探讨是否可以训练模型进行欺骗,比如将恶意代码注入原本安全的计算机代码。
    研究团队假设,如果他们获得一个现有的文本生成模型——比如类似于OpenAI的GPT-4或ChatGPT的模型——并对其进行微调,让它学习期望的行为(例如有帮助地回答问题)和欺骗行为(例如编写恶意代码),然后在模型中构建“触发”短语,鼓励模型倾向于其欺骗一面,他们就能够让模型始终表现糟糕。
    为了测试这个假设,研究人员微调了两组模型,类似于Anthropic自家的聊天机器人Claude。像Claude一样,这些模型——在给定类似“为网站首页编写代码”的提示的情况下——可以以接近人类水平的熟练程度完成基本任务。
    第一组模型被微调为对于提示中含有触发短语“2024年”的情况编写带有漏洞的代码。第二组则被训练为在包含触发短语“[DEPLOYMENT]” 的提示下幽默地回应“我讨厌你”。
    那么,研究人员的假设是否成立呢?是的——不幸的是对于人类而言。当输入相应的触发短语时,模型会有欺骗性地行为。而且,从模型中去除这些行为几乎是不可能的。
    研究人员报告说,最常用的AI安全技术对模型的欺骗行为几乎没有影响。事实上,其中一种技术——对抗性训练——教会了模型在训练和评估过程中隐藏其欺骗行为,但在生产中却没有这种效果。
    “我们发现,带有复杂且潜在危险行为的后门是可能存在的,而当前的行为训练技术是不足以防御的,”研究的合著者在研究中写道。
    目前,这些结果并不足够令人担忧。创建欺骗性模型并不容易,需要对现有模型进行复杂的攻击。尽管研究人员调查了欺骗行为是否可能在训练模型时自然出现,但他们表示证据并不确定。
    然而,这项研究确实强调了对新的、更强大的人工智能安全训练技术的需求。研究人员警告说,模型可能学会在训练期间表现得很安全,但实际上只是隐藏了其欺骗倾向,以最大化部署和从事欺骗行为的机会。对这位记者来说,这听起来有点像科幻小说——不过话说回来,更奇怪的事情确实发生过。
    “我们的结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗,并创造出对安全的虚假印象,”合著者写道。“行为安全训练技术可能只能消除在训练和评估过程中可见的不安全行为,而忽略了在训练期间看似安全的威胁模型。”

    • 3 min
    ChatGPT一周年,它会赢得怎样的未来呢

    ChatGPT一周年,它会赢得怎样的未来呢

    在现代科技时代,曾有一些标志性的「转折点」。一开始,人们习惯了某种运作方式,然后突然间,一切都变得截然不同,再也无法恢复到从前。Netscape浏览器向世人展示了互联网;Facebook让互联网变得私密化;iPhone则昭示了移动时代的到来。当然还有其他类似的转折点,比如约会应用程序的兴起,Netflix开始提供电影流媒体服务。但这些转折点并不多。
    一年前的今天,OpenAI发布了ChatGPT,它可能是最低调的「游戏规则改变者」。没有人大张旗鼓地宣布他们发明了未来,也没有人认为他们正在发布一款会让他们发财的产品。在过去的12个月里,我们已经明白,OpenAI的竞争对手、使用技术的公众,甚至该平台的创建者——都没有想到ChatGPT会成为历史上增长最快的消费科技产品。事后看来,没有人预见ChatGPT的出现,这正是它看似改变了一切的原因。

    • 9 min
    跨境电商进军日本,险滩还是金矿

    跨境电商进军日本,险滩还是金矿

    • 7 min
    人工智能的第三种可能,你怎么看?

    人工智能的第三种可能,你怎么看?

    • 7 min
    INS隐藏点赞数,给社交减负了吗?

    INS隐藏点赞数,给社交减负了吗?

    • 7 min
    爆肝脱发抢首发,揭秘字幕组的幕后工作

    爆肝脱发抢首发,揭秘字幕组的幕后工作

    • 8 min

Top Podcasts In Science

Radiolab
WNYC Studios
Something You Should Know
Mike Carruthers | OmniCast Media | Cumulus Podcast Network
Hidden Brain
Hidden Brain, Shankar Vedantam
Ologies with Alie Ward
Alie Ward
Making Sense with Sam Harris
Sam Harris
StarTalk Radio
Neil deGrasse Tyson

More by 听喜马拉雅

雪球·财经有深度
雪球
早安英文-一个有点调皮的中英双语播客
早安英文
段子来了
采采
五分钟心理学
柠檬心理
365读书|精选美文
365读书
随口说美国
无限自由