摄像镜头早已与人们的生活密不可分,AI相关的技术也是赫赫有名。但如果有人告诉你,开发者们能使用用计算机或手机上的镜头辨识你的脸部情绪,你是会为更多人/机器了解你而感到刺激和开心,还是油然而生一种抗拒和不安全感?反正我是后者。毕竟网络公司或者黑客利用摄影镜头获取使用者隐私的事故,多的足够写好多本「科技恐怖故事会」,连起来绕地球几圈了。不过,使用者们对被摄影镜头「读脸」这件事如临大敌,却并没有影响科技公司攻克心情辨识技术的一片「初心」。
使用者与摄影镜头的对决 最近,影片播放器 Bitmovin 上线了观众感知功能。在播放影片的时候,它会打开Webcam,观察正在看影片的观众。透过脸部表情来分析、衡量使用者对广告内容的情绪反应,如果用户对产品布局表现出积极的脸部反应时,就显示广告;如果使用者正沉浸在痛苦或不适中,就不显示特定的广告。看起来似乎还挺人性化的。不过,心情辨识技术早就不是什么新鲜事了。之前 The Sync Project 、emo 就用这种方式来推荐音乐,可口可乐也曾用检测表情的办法做过营销活动。除了商业用途,还有不少有意思的应用场景。例如卡内基‧梅隆大学的研究人员,就用 IntraFace来进行分心状态检测。一旦驾驶员在开车时去哄孩子、接电话等,就会遭到软件的警告。 利用镜头「读脸」的心情辨识,在便利和隐私之间能找到双赢的方法吗? 那么,这个神奇的「读脸」技能究竟是怎么实现的呢?简单来说,就是使用摄影镜头,实时监测画面中人物的脸部位置,搜集眉、眼、鼻、嘴和脸部轮廓的变化数据,然后透过机器学习训练出实时更新的算法模型,进而判断出他们的情绪状态。在 Bitmovin的影片感知功能中,系统在完成判断之后,还会驱动各个功能模块进行动作,例如播放调整、控制广告等等。利用镜头「读脸」的心情辨识,在便利和隐私之间能找到双赢的方法吗?尽管心情辨识技术看起来是如此有用,但似乎很少有人会认为,情绪感知是一个未满足的需求。透过很多其他的解决方案或者技术路径,似乎都可以做到差不多的预测使用者喜好的水平。但因为这样而迎来一个连表情都被实时监控的世界,实在有点得不偿失了。 尤其是商业组织进行「读脸」,会更强烈地引起不适。 问题的关键在于,企业透过摄影镜头对使用者的表情进行收集和分析,本质上是一种单向消耗。只有企业自身从这一个行为上获得了大量收益,像是推荐更多更精准的广告,引诱使用者进行消费。对于使用者而言,网上冲浪的体验并没有因此变得更好,甚至可能更糟,又凭什么要求大家用「脸」买单呢? 摄影镜头心理战,有没有「双赢」的解法? 也许这种说法对科技公司来说也有点过于刻薄了。毕竟很多负责任的公司都为此做出了不少的妥协和努力。例如允许用户选择在使用应用程序时才能存取相机镜头,或者在状态区显示摄影镜头活动状态,在拍照或摄像时发出提示音,有的手机在摄影录像时镜头还会自动升起来……尽管效果看起来都不尽如人意吧,但至少这些公司努力了啊!要从根源上解决使用者与企业围绕摄影镜头展开的拉锯战,让「读脸」这件事显得不那么冒犯,还是要在消耗使用者和服务使用者之间,找到一个「双赢」的最优解。幸好,心情辨识技术的应用范围非常多,绝不是只有网络世界才可以讨论。所以我们不妨思考这样一个可能性,如果让现实世界里的摄影镜头具备感知能力,能不能激发更大的想象。答案显然是值得乐观的。最近特别热门的无人零售,就需要生物辨识来帮助AI系统了解消费者。像有些无人超市,就曾推出过情绪营销,货架上的摄影镜头能够及时捕捉使用者的表情,并根据情绪幅度,快速计算对商品的偏好程度,进而给予不同的优惠折扣。在另一类商业场景中,也非常需要能够看懂表情的摄影镜头,那就是线下娱乐。娱乐消费的盈利模式,就是依靠受众的情绪进行内容变现。透过摄影镜头感知使用者的情绪变化,进而调整商品或服务,埋藏着不少让人惊喜的「彩蛋」。简单举几个例子,像是鬼屋/密室逃脱等娱乐项目。为了保证玩家在封闭体验区的安全,摄影镜头本来就是标准配备,而透过感知玩家的情绪变化,可以实时回馈来更新游戏体验。一些自以为很恐怖,结果大家内心毫无波动还有点想笑的项目,就别拿出来丢人了。
利用镜头「读脸」的心情辨识,在便利和隐私之间能找到双赢的方法吗? 还有,就是电影试映会或分级制,可以透过小规模的观影活动,借助摄影镜头来实时收集真实的观众回馈,减少「人情分」「看完忘了」「被网军洗文章」之类的无效操作。哪些作品比较受大众喜欢,哪些镜头会引起儿童不适,都可以透过情绪辨识进行量化分析,告别无网的决策。还有就是一些文艺娱乐演出场所,例如京剧、相声、音乐会、话剧等等,这些剧目最需要观众的临场反应来调整和更新演出内容。但传统的「人肉统计」显然有点落后了,摄影镜头完全可以代劳。 利用镜头「读脸」的心情辨识,在便利和隐私之间能找到双赢的方法吗? 可以看出,情绪辨识技术的应用场景是多种多样的,横亘在丰满理想和残酷现实之间的,说到底还是企业与使用者的利益之争。要改变「读脸」人人喊打的现状,一是让使用者也能在技术融合中真实受益;二是企业通过应用告知、合理授权、数据脱敏等方式,赢得公众的信任。让摄影镜头读懂喜怒哀乐,或许并不宏大 看到这里,想必大家已经发现了一个问题——既然镜头感知在现实中有诸多用处,为什么还没有普及呢?简单的说,「读心术」只是摄影镜头进化的第一步,想要大规模应用,情况就复杂地多了,只能先从小地方开始。
1.有限的终端算力。 目前常见的智能型镜头大多还应用在监控、安防之类的基础工种。要对复杂场景进行多目标的实时辨识和分析,终端算力还无法支持。当然,也可以将影片送到云端去处理,这样又会带来高延迟和数据安全性的问题。因此,心情辨识技术想要大规模应用,还为时过早。利用镜头「读脸」的心情辨识,在便利和隐私之间能找到双赢的方法吗?
2.跨地域的隐私授权 如今各个地区都在加强隐私建设,以「史上最严」的欧盟隐私法案(GDPR)为例,要收集必要的用户数据之前,必须征得画面里所有使用者的同意,否则将被禁止处理该数据。试想一下,在人流量密集、流动性强的区域去完成这样的授权工作,几乎很难被执行。利用镜头「读脸」的心情辨识,在便利和隐私之间能找到双赢的方法吗?当然,这些问题正在不断地被技术和企业们解决。例如集合了云端运算、边缘运算、端侧运算的一体化部署方案,能解决摄影镜头算力不足的难题。而对隐私敏感的使用者指责,则可以通透主动限制释放「读脸」技能来规避。例如前面提到的,只在小型场景、知情的情况下进行情绪读取。
只要面临「用还是不用」的道德纠结,直接选择不用,总是更加稳妥。亚马逊的无人超市Amazon Go,就没有中国境内人便利店子常见的拍脸环节,使用者只需扫码就能进入。而店内的100多个摄影镜头也只是捕捉身体动作的视觉线索,判断分区和动线是否合理。总而言之,摄影镜头的心情感知能力,固然可以化「自私」为「双赢」,但大规模应用还是很遥远的事情。而且在新的规则完善之前,还是得把它关在笼子里。 爱,即是克制——这或许是让人类与摄影镜头之间建立信任最快的快捷方式。