让AI精准识别盗版脸书开源数据增强库支持图文音视频
只要稍微动点手脚 , 就会给AI模型的鲁棒性带来挑战 。
【让AI精准识别盗版脸书开源数据增强库支持图文音视频】在AI眼里 , 下面这两张图片可能毫无关联:
文章图片
现在 , FacebookAI开源了用于数据增强的新Python库——AugLy 。
文章图片
它支持音频、图像、视频和文本4种模态 , 提供了超过100种数据增强功能 , 可以对输入内容进行多种处理 。
比如 , 改变文字的大小写、字体、编码方式 , 给文本添加标点、调整字母位置、模拟错别字 。
文章图片
以及裁剪、旋转图片 , 给图片加文字、增加饱和度、增加亮度、改变清晰度等等……
文章图片
这一项目已经获得1.8k颗星 , 并且登上了GitHub热榜 。
文章图片
让AI识别“截屏转发”
AugLy的目的是涵盖现实网络中具体的数据增强 , 用来创建样本 , 从而训练和测试模型 。
根据Facebook和Instagram等平台上的生活图像和视频 , AugLy在统一的库和API下转换项目的所有数据 , 提供了超过100种数据增强方式 。
其中包括4个子库 , 分别对应音频、图像、视频和文本4种模态 。
这些子库包括基于函数和类的变换、组合 , 并且可以选择所应用的元数据及其强度 。
文章图片
以图片处理为例 , AugLy可以对图片进行裁剪、旋转、添加噪声、模糊处理、灰度处理等 。
就像这样:
文章图片
或者图片或视频上叠加文字和emojis:
文章图片
除了包含许多通用的增强功能 , AugLy更大的特点在于——提供“互联网用户”类型的数据增强方式 。
比如 , 把图片转换成屏幕截图的样式 , 更加符合生活中常见的样子 。
文章图片
使用AugLy数据增强训练AI模型 , 这些内容相同而形式不同的信息 , 能帮助模型提高鲁棒性 。
在复制检测、言论检测或版权侵权等工作中 , 训练后AI可以对用户上传的内容 , 进行更精确的识别 。
此外 , AugLy已经被用于Deepfake检测挑战赛 , 用来评估模型的鲁棒性 。
网友热议
这个新的Python库也受到了网友们的关注 , 在Reddit上获得了350+赞 。
文章图片
有网友提出疑问:文本模块只支持英语吗?
文章图片
一位热心网友表示:
看起来文本模块在很大程度上是对nlpaug的一种包装 , 因此AugLy支持其他语言 , 只需修改几个参数 。
文章图片
也有网友提出 , 为什么不直接把它加到pytorch里?
文章图片
对此 , 有人回复道:
这样在安装的时候会很慢 , 有需要的的人单独安装就可以了 , 没必要让pytorch那么臃肿 。
- 5G|华为利用5G毫米波发现园区入侵者,这让美国5G联盟情何以堪
- 鸿蒙os|麒麟9000再度发力,华为高精度导航让你出行不迷糊
- 信息科学技术学院|瞧不起中国芯?芯片女神出手,30岁斩获国际大奖,让美国哑口无言
- 发现最小白矮星,其大小相当于月亮,这让科学家很兴奋
- 本周华为小米相继报出的新闻,让我看到中国科技公司未来发展希望
- 6g|港媒:中国又在这一领域让美国寝食难安
- |OPPOK11x,精准的满足用户对于强续航,大存储、拍摄的需求
- 试剂盒|中国研发团队推出“更灵敏”试剂盒获批上市 可精准探测德尔塔、奥密克戎
- 腾讯|前腾讯员工爆料:鹅厂的末位淘汰制让人心理崩溃!
- 美国|“绝不能让中国芯片供应自主计划得逞!”美国这回彻底不装了