编者按:本文来自微信公众号“脑极体”(ID:unity007),36氪经授权发布。
在机器学习刚刚投入应用时,最常见的就是电商领域——让人们在网上买下自己不需要的东西。
如今电商平台的形式越来越丰富:完全跟从平台自身的直营模式、数据体系更完善的大品牌B类模式,以及低门槛的小微个人C类模式。其中,C类电商的智能推荐系统是最为复杂的。
C店的智能推荐为什么会难做?直营电商就不用讨论太多了,统一的商品类目管理、统一的商品排序,在做智能推荐时,更多的是注重对用户行为的识别和用户数据的挖掘。天猫一类的B类品牌店铺也一样,店铺数量较少,品牌店通常都有自己的专业的运营团队、历史数据,在平台方面,品牌店也会更加遵守规则。
可对于基数巨大、体量差异巨大、从业者生态复杂的C类店铺来说,想要做出一套人人都满意的智能推荐系统,可没那么容易。今天,我们就从C店卖家的角度出发,看看智能推荐系统如何为其赋能。
逆推协同过滤算法,不仅仅是推荐
在C类电商中,智能推荐系统不仅仅要帮助用户找到心仪的产品,还要帮助普通卖家更好的把握住流量。
我们可以看看早期的电商推荐系统是怎样的。
以搜索展示为例,早期电商推荐最主要的原理就是文本相关性——也就是关键词。最典型的表现,就是淘宝商品往往会有一个特别长的标题。
比如输入“滑板”二字,会发现大多数商品会把滑板、长板、刷街、舞板甚至滑板车等等相关不相关的关键词都加入了标题中。这已经是今天经过多次修正后的搜索效果,可以想象一下,几年前的电商搜索结果会是什么样子:用户想购买滑板,结果搜索结果里有一堆滑板车、滑板鞋、滑板袜……
在标题中加入多种名词是商家为了获取更多流量的无奈之举,可对于用户来说,这样的体验并不好。
而面对这种情况,电商行业衍生出了一种很有趣的解决方式——创造更丰富的数据体系,应用更多的关联推荐。
在电商买东西时,平台总是向我们要求很多行为:收藏店铺、收藏产品、加入购物车、为产品评分。这些行为都被平台记录,丰富着每个人的用户画像。
在应用协同过滤推荐算法时,这些丰富的个人用户画像就成了重要的根据,对单一用户数据行为挖掘越深入、越准确,就可以帮助用户量较小的C类店铺更好的预测买家行为、甚至对产品销售进行预判。
比如我是一位第一次搜索滑板关键词的买家,进入了一家C类店铺,而我曾经购买过运动休闲服饰,通过协同过滤算法,运动休闲服饰也会被推荐给在这家店铺有过购买行为的用户。这样一来,卖家就能判断我是一位有价值的用户。
这样的解释或许有点复杂,但我们只要记住一点:丰富的行为数据体系会让电商的协同过滤算法更加精准,而精准的协同过滤算法不仅仅能把商品推荐给人,还能逆推得知人与商品的匹配程度。
对于卖家来说,他们可以从此得知每一次引流活动是否精准,更好的提高流量转化率。
建立预测模型,让数据找到彼此
对于如今的电商来说,搜索和页面广告两个入口已经不足以满足卖家展示商品的需要和平台间的竞争。主流的形式是在单一平台上开拓更多的品类入口,比如京东的精品、淘宝的iFashion等等。
而平台建立某一垂直品类的入口,自然不是拍脑门的决定,而是来自于流量、销量的预测模型。
以iFashion这类面向年轻人的时装入口为例,首先要做的就是数据特征的转换,提取出用户年龄、购买行为、消费能力,关联出最受他们欢迎的产品品类。利用随机森林或向量回归等方式建模,模拟用户在单一品类中的浏览行为、停留时间、甚至购买行为等等。
有了大概的估计后,再将入口上线、辅以流量支持。而对于C类店铺的卖家而言,在更符合自己属性的入口中不仅仅意味着获取更精准的流量,也能够让类似产品、用户、店铺进行关联。
产品、用户、店铺三者形成一个三角,三者之间产生的任何数据关系带来效果都是三倍计数。从而更好哺育未来预测模型的建立。
智能推荐的未来:识别非结构化数据
除了以上两种方式,目前的新趋势,是通过NLP技术挖掘更多的非结构化数据。
我们逐渐发现,现在购物网站上的文字越来越多了——买家评价、电商头条、商品问答等等。用户在这些文字中流露出的情绪,对于卖家而言也是珍贵的数据资料。
对于C店而言,NLP技术的作用不仅仅是机器阅读,更多的还有自然语言生成。阿里妈妈就推出过这样的功能,利用NLP技术理解爆款产品的标题,生成模型后为其他卖家修改产品标题。相信未来通过算法模型生成爆款商品描述、宣传文案等等也指日可待。
同样的道理也能应用在计算机视觉上,通过计算机视觉识别商品拍摄图、店铺网页设计等等,归纳出适应于不同品类、人群的设计风格,供以卖家参考。想的更遥远一些,或许在未来,计算机视觉技术还可以通过商品图片识别设计侵权,从售卖渠道上断绝侵权产品出现的可能。
总之,对于C类店铺来说,在运营中对于智能营销和机器学习等等的新技术的依赖要更加强烈。我们也能逐渐发现,推荐算法本身似乎很少有改变,我们所做的,还是在更多的挖掘数据,不管是设置用户行为系统这样主动的获取方式,还是利用机器学习技术识别图片、文字这样被动的获取。
而这对于平台和C类店铺卖家个人来说,都是最具性价比的方法。挖掘数据带来好处更具普适性,C店电商本该是物种丰富的,平台不能插手其中作物的生长,但有了数据作土壤,会让整个生态更加繁茂。