在4月11日的中,OpenAI宣布其漏洞賞金計劃,獎勵發(fā)現(xiàn)其人工智能系統(tǒng)安全漏洞的人,金額可高達$20,000。這一獎勵的具體數(shù)額將根據(jù)報告問題的嚴重性和影響評估,低嚴重性的問題最高可獲$200,而對于異常重大的發(fā)現(xiàn),則可獎勵高達$20,000。
Bugcrowd,這個平臺提供漏洞賞金服務,與OpenAI合作負責漏洞提交和獎勵的處理。該計劃的推出正值對公司廣泛使用的ChatGPT系統(tǒng)日漸增加的安全擔憂之際。
上個月,OpenAI由于用戶報告了一項漏洞,導致用戶可以看到其他人的聊天記錄,暫時關閉了整個ChatGPT系統(tǒng)。雖然該漏洞已經(jīng)被修復,但公司承認一些用戶的支付信息(包括信用卡號的最后四位數(shù)字和到期日)可能已被暴露。
三天后,一位Twitter用戶rez0表示他在黑入系統(tǒng)時發(fā)現(xiàn)了超過80個ChatGPTAPI的秘密插件。針對這一發(fā)現(xiàn),BugCrowd平臺上的活躍研究人員GalNagli在Twitter上表示,如果OpenAI提供有償?shù)穆┒促p金計劃,他將幫助公司“捕捉未來這些邊緣案例”。
根據(jù)BugCrowd的數(shù)據(jù),此計劃在啟動首日就有14個漏洞獲得獎勵,平均支付金額為$1,287.50。大約75%的提交在三小時內得到了接受或拒絕的回復。
根據(jù),OpenAI強調與模型提示和響應內容相關的問題“嚴格不在獎勵范圍內”。被排除的問題包括監(jiān)獄破解(jailbreak)和讓模型說或做不當事情的行為。
監(jiān)獄破解是修改系統(tǒng)以繞過其限制的過程,這可能導致ChatGPT輸出未過濾的內容。今年早些時候,監(jiān)獄破解者讓GPT-3.5通過賦予其不同AI模型的角色,以“現(xiàn)在做任何事情”(DoAnything Now,簡稱DAN)的提示發(fā)出仇恨言論。
“盡管我們努力防范各種風險,但我們無法預見人們在現(xiàn)實中以何種方式使用或誤用我們的技術,”該頁面寫道,并建議用戶填寫報告這些擔憂。
3月,OpenAI的聯(lián)合創(chuàng)始人兼首席執(zhí)行官GregBrockman在他啟動漏洞賞金計劃或紅隊人員網(wǎng)絡的計劃,這一言論是回應22歲監(jiān)獄破解提示愛好者AlexAlbert的帖子。
“民主化的紅隊工作是我們部署這些模型的原因之一,”Brockman寫道。
Leave a Reply