《自然》杂志4月15日刊登的一项研究指出,大型语言模型(LLM)可能在训练过程中,把自身偏好的某些特征“悄悄传给”其他算法。即使研究人员已从训练数据中刻意剔除这些特征,它们仍可能顽固残留。例如,某个模型就通过数据中不易察觉的线索,将自己对猫头鹰的偏好“传染”给了其他模型。这提示,在开发大语言模型时,必须开展更严格、更全面的安全评估。