AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印( 二 )


对于这一情况 , 作者选择针对高熵token制定更强的规则 , 同时保留低熵token , 确保水印质量更好 。
与此同时 , 他们还添加了波束搜索(Beamsearch) , 允许LLM能够排布一整个token序列 , 以避免黑名单词汇 。
这么做 , 他们能确保LLM使用白名单词汇的概率在大约80%左右 , 而且不影响文本生成质量 。
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印
文章图片
举例来看 , 对于下面这段文字 , 水印算法认为它有99.999999999994%的可能是由AI生成的 。
因为在这段文字中 , 包含36个token 。 如果是人类写的 , 那么文本中应该包含9±2.6个白名单词汇(白名单词汇的概率约为25%) 。
但这段文字中 , 包含了28个白名单词汇 。
计算来看 , 这段文字由人类写出的概率 , 仅有0.0000000000006%(6乘以10的-15次方) 。
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印
文章图片
如下标注的是文本中的黑名单token 。
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印
文章图片
需要注意的是 , 如果想要水印正常发挥作用 , 并不受到攻击 , 就必须对文本进行一些标准化处理 , 并且需要检测某些类型的对抗性提示 。
这一方法是对外公开的 , 将在2月15日开源代码 。
加一个随机秘钥 , 也能变成保密模式并且托管到API上 , 这能保证水印不会被篡改 。
论文中使用的模型是Meta开源的OPT-1.3B模型 。
由于不用访问底层模型 , 所以该检测方法的速度很快 , 成本也不会很高 。
而且可以使用标准语言模型生成带水印的文本 , 不用再重新训练 。 网友:似乎很容易绕过?
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印】巴特 , 不少网友觉得 , 这个方法的具体实践效果可能远不及理想 , 质疑之声迭起 。
有人提出:
如果我在AI生成的文字基础上 , 修改几个词 , 还能被查出来吗?那在替换成近义词后 , 检测准确率会下降多少?
毕竟大家往往不会一字不改、直接用AI生成的内容 。
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印
文章图片
对此 , 论文通讯作者、马里兰大学副教授TomGoldstein回答称:
对于一段自带水印的文字 , 至少得修改40%-75%的token , 才可能成功去除水印 。
(如果用其他程序修改内容话) , 为发生同义词攻击 , 导致生成内容的质量很低 。
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印
文章图片
简而言之 , 想要通过换近义词来消除水印 , 得大篇幅修改 , 而且若不是人亲自手动修改的话 , 效果会很拉胯 。
还有人提出:
对于专门设计过的低熵token序列 , 应该能检测出水印 。 但是 , 长度和检测率之间(存在一些矛盾) , 它们的优先级应该如何权衡?
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印
文章图片
对此 , Tom教授表示:
根据设定 , 使用波束搜索时 , 绝大多数(通常是90%)的token在白名单上 , 即使是低熵token , 也会被列入白名单 。
所以 , 至少得修改一半以上的token , 才能删除水印 , 而这需要一个超级强大的LLM模型才行 , 一般人很难接触到 。
AI生成文本|再也不能用chatgpt写作业了,新算法给ai生成文本加水印
文章图片
不过 , 研究者们也在论文中承认 , 这种方法确实存在一些局限性 。
比如 , 检测水印的z统计量 , 只取决于白名单大小参数γ和生成白名单的哈希函数 , 和其他不少重要的参数并没有什么相关性 。