今天,我们来谈谈什么是“人群”。淘宝会给做得好的KA商家分析八大人群占比,八大人群我就不详细列举了。很多商家觉得这个很有用,想优化一下?即使这八大人群有用,你如何针对优化?针对每个人群付费推广?还是结合达摩盘和数据银行去做营销数据包?“向量”是如何影响搜索? 淘宝的八大人群无非就是一个分类类别,就如同消费者可以分为男、女、消费能力、职业、地域一样只是系统给打上的类别符号,它最多说明了你所在类目品类下以往历史成交人群的人群特征。 品类就是最大的市场,这个需求市场的人群特征是这样的,但是不代表你店铺的人群就是这样的。 什么是人群?是一段时间内对某类东西有需求,而在关注和搜索也就是有购买意向的人。八大人群是这个类目的人群特征如果没有需求驱动他对于你来说就什么都不是,如果去谈优化而不是针对这些人群特征做针对性优化,源头还是要从“购物意图”开始。 正文 一:没有购物意图统一的人群就是一帮散人,散人的特征就算符合你的目标客户群体,但是在特定时间内没有匹配你产品需求就是独立的人和你没有半毛钱关系,就算是在这个推荐式搜索的时代,历史行为轨迹数据也只能服务于第一次搜索,召回的是有相同购物意图的人而不是具有相同的人群特征。 简单来说需求统一的人才叫人群,标签就是一个过去式根据以往历史行为轨迹特征给贴上的类别符合。 一谈人群或者人群标签很多同学就懵了,原因就在于没有理解“针对你的品类一段时间内具有相同购物意图的人”才称得上你的人群,首先是购物意图统一,也就是需求统一;后面再通过人群结构(性别、年龄、消费层次、职业等)过滤来提高原有相同购物意图人群的点击率和转化率,如果你需求统一后人群结构没有帮助你提高点击率或者转化率就不要去开这些基础属性人群。 有多少同学把基础属性人群标签当人群的? 不开基础属性人群就感觉没有开人群,没有开标签? 试问一下各位同学:如果没有相同的购物意图做到需求统一,你测试这些有任何的意义吗?更有很多同学上来把关键词加满去测试,需求本身就不统一,实时造成需求流动自然测试的基础属性组合人群今天好明天差的情况。 需求统一,一定要站在市场需求的角度来看待匹配不能站在关键词的角度,大部分同学选择关键词就喜欢根据搜索人气和在线商品数来分析竞争格局,这个思维本身就进入了高竞争市场,只有站在市场需求的角度来安排关键词,通过关键词背后的购物意图来满足一个市场需求,通过“一品类一市场,一属性一人群”用市场需求细分去进行错位竞争,而不能按照老的关键词竞争环境思维去布局关键词。 这个问题同样是向量问题: 很多同学问我什么是向量,向量的概念:既有大小又有方向上的量,最后你会发现向量就是语义向量。 我用算法思维给大家解释这个问题 淘宝是台机器是个系统,在计算机语言类任何词语都是万个零中的一个一,在计算机语言系统里词就是实数来表述的,现在是推荐搜索算法排序机制,谈到推荐搜索就必须谈召回机制。 召回机制:词召回和向量召回词召回用算法思维来解释既然每个词都是一个实数,那么系统只需召回实数相似的商品回来形成商品集合。 基本思路是:如果这个两个标题用词越相似,它的内容就应该越相似,因此可以从词频入手,计算他们的相似程度进行召回。 咱们上新一个新品加上看商品质量分和上架时间因素还真按照这个思路召回的这个阶段就是召回阶段也叫粗排。 这种词(实数通过TF-IDF值获得)召回有个最大的缺点就是没有表达词语间语意,所以必须要解决语义相似度的问题这时候就有了语义向量、向量召回。 谈向量召回就不得不提两个算法: TF-IDF算法: TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 IF值:是指 term 在标题中出现的频率。某个词在标题中出现了多少次。 IDF值:由 词(term) 出现在语料库的数目总数来决定。 TF-IDF=TF*IDF TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。搜索时,对于每个文档,都可以分别计算一组搜索词("termA"、"termB"、"termC")的TF-IDF,将它们相加,就可以得到整个文档的TF-IDF。 这个值最高的文档就是与搜索词最相关的文档。 从算法的角度给大家解释什么是TF-IDF值以及它的作用其实就是帮助我们提取权重比较高的关键词。 上述也有说缺点就是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。 如何解决这个问题? 就要谈另一个word2vec算法: 将词表征为实数值向量的高效工具,利用深度学习思想,通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。 这样就可以用TF-IDF结合余弦相似性,解决这个问题。 通俗一点,相似性可以用距离来衡量。 而在数学上,可使用余弦来计算两个向量的距离。 这就是向量空间模型:是一种将文档转化成向量的方式,文档转化成了向量,从而可以在同一维度的空间中表示一个个的文档。 向量中的每个元素是一个个的实数,每个元素对应着一个 词(term),实数 是通过tf-idf计算出来的。 tf-idf也仅仅是一种将词(term)转化成实数的方式,当然我们也可以通过其他方法将 词 转化成实数,方式有很多种。 现在能明白向量是什么东西了吧,向量解决的是语义相似度问题。 向量召回也就是相同购物意图语义的召回 你去人为操作解决的永远是TF-IDF值问题,而永远解决不了语义向量问题,干预越多反而越影响向量的问题,系统都不知道你是什么东西表明什么语义,怎么给你推荐。 这也是我们18年就放弃讲坑产,改为标签的根本原因,历史行为轨迹形成的标签也可以转化成实数进行向量召回。 所以假的永远是假的,人为干预就是自嗨罢了。 [注]词向量的计算结果:最终的词向量里面,相似的单词,他们的词向量值在比例上也是相似的。 词向量的相似性衡量:事实上我们通常会用余弦距离去衡量词向量的相似性,即词向量间的夹角。
如果你懂一点余弦定理的话两个向量相减不是此消彼长而是会改变向量方向。这也是为什么有些链接断崖式下跌的根本原因之一。 二:市场需求是一个变量还是恒量。 这是我前几天在一个集团做内训引起我思考的一个问题。 有个同学说店铺品类规划很乱、客单价很乱如何定位?在人群的方面上大家讨论了很久,有一个比较大的分歧就是一个品类的高客单价人群在其他品类下是什么人群的问题? 其实我的观点很明确:只用价格带定人群不要考虑品类。 同价格带就聚焦人群,在我看来任何市场需求不管站在人口基数还是任何分层人群,“需求”都是一个相对恒量的。 一个店铺定高客单还是低客单要看店铺实际成交的客单价,而不能看单品。 作为一个消费者也不会分在品类下是高客单,在另一个品类下是低客单,只考虑消费者消费能力。 其实在大家还存在一个误区:就是自定义基础属性人群,类目笔单价并不是客单价,月消费也不是说在这个类目每月花多少钱。 类目笔单价对应的只是180天内在这个类目有消费过,月消费只能看出来他是不是淘宝平台忠实客户,在平台消费情况,其实和你们自有店铺没有任何直接关系。 这些基础属性人群标签就是在帮你过滤出来具有相同购物意图的人群的人群特征而已,这个画像成为种子人群标签画像。 特别是一个店铺价格带跨度大的,举例:假设便宜的99,中客单的599,高的1999;如果实际成交客单价就围绕99-199之间他其实就是低客单人群,如果真实客单价是599-999就是中端人群;999-1999高端人群,再添加品类定价就要围绕着店铺真实平均客单价来定。如果你做的是同品类叶子类目产品建议就围绕一个价格段,千万别中高端人群全吃,根本不可能,先不从推荐算法谈,就从市场需求恒定原理,你用99的低客单满足了市场大部分需求,市场份额及需求就那么大,你的新品你的高客单产品怎么卖? 最后肯定新品按库存最低价倾销了,这样的多价格带布局很容易造成这样的“囧局”。 只有市场需求细分市场才有定价权,你做什么样的生意就要先分析市场竞争格局。 突破的绝对不会是价格,只有细分市场或者根据消费者的需求进行改造升级的产品才会打破价格困局。 产品为王必须满足于市场需求为前提,产品不是数据自嗨,要看消费者的真实接受程度,那些点击率高,收藏加购率高的产品多的事不成交就说明不满足:“市场需求”,解决转化问题必须从市场需求为导向而不能去找更多关键词机会。 市场需求的背后才是关键词。 任何市场需求都是一个恒量,机会在于细分市场和人群分层,多维度多角度去布局,前期一定是错位切入做差异化垂直类细分市场,先满足一部分人需求,再去解决另一部分需求,做搜索就是阶梯式的一个个解决不同需求的过程,流量也是阶梯式一步步递增的过程。 市场需求是个相对恒量,价格带区分人群决定了竞争环境。
|