智能相册AI化的“道与法”

编辑导读：手机里的相片越来越多，很多人会习惯把它们存在网上，因此出现了很多智能相册产品。本文从相册本身这个产物去探讨其背后的底层逻辑，探寻相册这个现象背后的道与法，希望对你有帮助。

引言：今天要谈的这个产品是一个大家每天都在用，但是大部分人感知特别弱的产品，但实现这个产品的智能化会给用户体验带来极大的改善，创造用户的“aha时刻”。他不仅仅依赖于某一个单一的深度学习算法，而是多模态的算法融合，构建的系统级的AI产品。

这个产品就是我们日常都会用的智能相册。市面上智能相册的产品很多，优秀的产品也很多，随便抄一个叠加一些差异化功能都能做到70-80分。因此接下来我们不谈智能相册具体如何打造从0-1的术和器，而是从相册本身这个产物去探讨其背后的底层逻辑，探寻相册这个现象背后的道与法。

了解相册背后的底层逻辑，我们还是套用常用的方法论，从what、where、when、why和how来进行拆分。

一、what

什么是相册？其实相册这个产品并不是近些年才有，应该是伴随人类文明诞生就存在。从远古时代的人类祖先在洞穴居住的时候，就会洞穴墙壁上进行绘画，这一副一副的画作我们就将其定义为相册集。通过这种方式人们来记录对于世界的理解，人物之间的关系、发生的事件、世界的万物（动物、植物等）、人们脑海里的想象、梦境等等；

随着宗教逐渐的发展，记录的内容除了客观存在的世间万物之外，相册内容包含了大量的宗教传说中描绘的景象；随着人们对于工具的开发和应用，内容更加精美，可读性更好，更易于传递创作者想要表达的意图和人物所处的环境。

到了近代，在照相机发明之前（1839），我们对于相册的定义是通过各式各样的画作的集合，比如艺术大家的作品集，里面的内容范畴与史前人们对于世界理解和记录并无二致；比如宫廷帝王在一些重要场合下聘请画师进行写实的肖像绘画，画家户外的写生，同样也包含大量基于宗教故事、宗教人物的理解再创作。

随着相机的发明，人们对于世界的记录和理解方式又多了一种。但是记录的东西想要传达的情感并没有因为记录的工具发生变化而改变。通过相机的方式，让相册不再是王公、宗教贵族等少数社会顶层的人们拥有的东西，相册的全民化与普及，让普通人也可以通过更丰富的元素光影、色彩来记录下对于世界的理解、人与世界的关系，帮助人们更好的审视自己的人生。

综上，相册虽然随着科技的进步载体和表现形式不同，但是其本质及发挥的作用并没有改变。且是人做为人区别于其他生物最大的区分，通过一种形式承载情感与传递思想，记录每个人与外界交互产生的片段。相册的归属可以是个体、家庭又或是一个组织。

二、where&when

什么场景下会使用相册：

比如在一些仪式上，毕业日、婚礼、生日上、家庭聚会等，与其他人产生交集的会分享的场景（用于传递表达情感）；
自己日常使用，查找一些过去的记忆（基于时间、事件、人物、地点、场景）；比如去年今日、婚礼上的照片、闺蜜的照片、马尔代夫的旅游记忆、备忘录（知识、信息、名片、证照等）
基于相册的内容进行进一步加工二次创作，基于某个主题进行编辑加工制作短视频、vlog等等；（图片、视频、其他素材等等）

随着进入“万物皆可屏”的时代到来，相册存在的载体也更加丰富了：比如车载的中控大屏，内容可以是行车记录仪、车内的旅行乘客记录、车外的风景等；

比如电视大屏，内容可以是适合家庭一起观看的家人们的视频与照片，生活记录的点滴；

家中的电子相册（带屏音箱等其他智慧中屏），内容可能是艺术画作、亦或是家庭的合影等等；

手表上的相册，可以是人物的大头照、自然风景、宠物、建筑或者是用于作为壁纸的内容；如果是儿童手表的话，内容则更加丰富（现在儿童手表很多支持双摄），自拍、合影，小朋友的第一视角认知的这个世界、周遭的环境；

三、why

为什么相册亟需智能或者是AI加持，赋予其更多功能呢？

其原因在于我们的电子相册里面记录了人与世界交互产生的痕迹，人看外界的视角、人抽象的情感&思想、人与人的关系；如何理解相册内容，其实是能帮助智能体更好的理解人本身理解人的情感、意图，从而进一步帮助智能体更好的为人提供千人千面的进一步服务（航班信息、证件信息、名片信息等）。

其次，前面提到人使用相册很大一部分原因是需要进行查找、分类进行进一步的创作，因此通过人工智能机器学习的算法可以作为工具提升查找效率、并且帮助人们进行二次加工创作。

最重要的是，相册本身承载了人的情感，通过机器学习的方法理解相��的内容，理解人们的情感、记录人生活的点滴，在合适的时间通过已有相册内容制作视频帮人们唤起一段回忆，与人们产生共情。这可能是一个好的相册产品能达到的最高境界了。而想要做到这些必须依赖于人工智能机器学习算法模型的加持，相册需要背后有强大的算力支持。

四、how

如何打造一款有情感方便好用的相册呢？有什么可以应用的机器学习算法，像魔法一样，让相册也可以像哈利波特世界中的一样鲜活起来？

首先我们可以看看国内外的科技巨头都是怎么做的？

竞品分析

我们如何打造一个情感化属性的智能相册呢？

首先是基础的图像分类能力，这个是计算机视觉最为基础的任务，但如何分类更符合用户相册的场景定义，如何分类却不冒犯到用户（之前有人提到过某相册把某用户的母亲分类为黑猩猩，当时引起争议），宁不分也不要分错（再同样的前提下，优先保证准确率而不是召回率），在相册分类的场景下人们可能更希望的是大类的区分而不是像学术人物里面针对物种的类间区分；

除了事物的分类之外，另外一大类就是对于人脸聚类，就是按人物ID进行区分，把同一个人分到一起，可以找到这个人的照片。但是某个人的照片哪些要展示出来，哪些不展示，也需要进行设计，比如说用户并不愿意看到自己脸部很模糊、或者很丑态的照片，在人脸质量打分中、质量分低于某个阈值的是否就不以分类的结果进行展示。

图像美学质量评价：如何选择机器学习里质量分较高（人脸大小、光照、正面角度、清晰度等等）、且人主观也认为比较好看的照片进行图片优选？甚至进行进一步加工创作、制作回忆视频等等，这里就涉及到关于图像美学质量的模型设计以及人像美学质量的深度学习模型设计了。

看图说话：基于已建立好的照片/视频（多帧时序图片）分类及美学评价体系建立的基础上，我们进一步可以理解照片所表达的背后意图，传递的感情，比如现在主流的image caption方向和visual question answering方向，都是基于CV+NLP的多模态学习任务，非常适用于相册智能化的场景中。image caption就是看图说话，比如我们提到Instagram做的视觉障碍人士可以听见ins上的图片所表达的含义就是image caption的典型应用。

VQA：（visual question answering）其实是更近了一步，除了理解画面所表示的含义之外，还可以基于图片进行提问，机器需要理解的内容除了表述画面所显示的内容之外，还要理解问题，并且在画面中找到相应的答案，VQA无疑是将图像理解更推进了一个维度。包含的问题包括二分类问题、计数问题、开放问题等等。

在比如通过一些全局搜索/语音助手的query可以找到满足用户意图的相册里的匹配图片、视频，理解了用户意图的基础上，进行相应的回复，这也是让相册更加理解用户，与用户共情的必要条件。

GAN-趣味体验：最后增加相册体验的可玩性，趣味性，增加产品的魅力因素的功能包括。比如，让2D平面照片像施了魔法一样动起来的3D photo，通过深度估计、matting、inpainting等一系列技术，如果想要将人脸也变得立体，需要将人脸进行三维重建，现在也有基于单张或多张RGB相片进行3D人脸重建的技术，可以想象一下未来你相册里的人脸可以转动，可以做不同的表情，是不是非常有趣呢？

此外围绕GAN展开的一系列应用，也非常适合在相册里作为拓展功能增加用户的粘性，比如把旧时的黑白老照片进行修复，恢复色彩、变得清晰，把相册里的人物制作漫画风格、迪士尼风格的各种人像的风格迁移头像；同样可以进行年龄编辑，看看老了什么样子、小的时候什么样子、换一种性别又是什么样子，人脸与人脸融合是什么样子等等。