OpenAI已經(jīng)進(jìn)行了大量內(nèi)部安全測試,并正在推進(jìn)外部安全測試。從即日起,想要參與測試的研究人員可以申請測試o3-mini,而o3的測試則需要等待。申請地址已在OpenAI網(wǎng)站上開放,并將于2025年1月10日關(guān)閉。申請者需填寫在線表格,提供相關(guān)信息,包括之前發(fā)表的論文鏈接及其在Github上的代碼庫,并選擇希望測試的模型及使用目的。
OpenAI還介紹了一種新的安全評(píng)估方法:審議式對(duì)齊(deliberative alignment)。這種方法直接教授模型安全規(guī)范,并訓(xùn)練模型在回答前明確回憶規(guī)范并準(zhǔn)確執(zhí)行推理。他們使用這種方法對(duì)齊o系列模型,實(shí)現(xiàn)了高度精確的安全政策遵守。