>   有料网   >   科技频道   >   正文

【机器学习】九枝兰专访:程序化广告的高精尖算法以及流量作弊的现状解读

为大家带来关于程序化广告产品的核心算法以及流量作弊现状、作弊手段等重磅独家内容。数据流转的环节会比国内做的更标准化。现在部分广告主会对兴趣分类的用户非常感兴趣。搜狐的广告主所使用的兴趣分类主要来自搜狐自己的数据 —— 这也是搜狐的优势之一。

前言:上期粉丝通DSP专题反响不错,而今天的内容更加珍贵。九枝兰邀请了搜狐商业大数据中心总监管延放老师,为大家带来关于程序化广告产品的核心算法以及流量作弊现状、作弊手段等重磅独家内容。

九枝兰:大数据在广告行业的应用现状如何,以及国内外的大数据营销有什么样的差异?

管延放:目前,大家都已经充分意识到大数据对广告营销的重要性,包括媒体、广告公司、第三方监测公司、广告主,乃至整个行业生态圈总体认可了大数据的价值。现在主要挑战是如何找到高质量的数据源,以及如何在广告营销的过程中更好地发挥这些数据的价值。

至于国内外大数据营销的差别,我个人觉得在国外的生态圈,数据流转的环节会比国内做的更标准化。国内也正在朝这个方向努力,包括现在搜狐也在去鉴别行业里能提供高质量数据的DMP数据源,并且与其形成长期的合作,使得广告主在投放广告的时候,可直接选择第三方DMP。

九枝兰:目前广告行业都会有哪些维度的数据在指导广告投放?

管延放:取决于广告主的需求——

品牌广告:

关注受众的人口属性,主要指性别、年龄区段、职业类型等属性。

对于人口属性,行业里比较典型的方法是Panel——以抽样人群的方式去扩展,或者和有比较明确的人口属性数据的公司合作,比如像电信公司、一些强注册、强登陆的互联网公司等建立数据合作。

效果广告:

一般不会强调目标人群,关注的是针对某类广告的点击人群和非点击人群,用模型的方式去解决。其中还存在着兴趣人群——基于所掌握的用户行为轨迹,了解其兴趣,基于兴趣对用户进行分类,现在部分广告主会对兴趣分类的用户非常感兴趣。

搜狐的广告主所使用的兴趣分类主要来自搜狐自己的数据 —— 这也是搜狐的优势之一。搜狐拥有完整的矩阵结构,包括搜狗搜索、搜狐门户、视频播放、甚至是游戏数据。在这种立体的矩阵下,我们会看到同一个用户在不同内容类型下的兴趣表现,这会使我们对用户有一个立体的认识,基于这些立体的认识,就可以产生搜狐兴趣人群标签体系。

搜狐广告系统里光是由机器直接产生的有效标签就有几十万个,从这些标签里筛选出750个适合人理解并且能够直接营销的标签。标签中有两类,一类是基于人对行为的理解,用规则或指导学习的方式生成出来了,另一类则是人类未必理解,用非指导学习的方式生成出来的。

这750个标签,我们更多的是从可售卖性的角度去摘选,比如汽车类客户,我们会在人群里寻找汽车属性更强的人群,再为其打上有商业价值属性的标签。例如:对什么类型的车感兴趣?对哪个价位的车感兴趣?这些都是用数据方式分析出来的。

九枝兰:为了提升广告投放的效果,搜狐广告产品采用了哪些成熟的算法?

管延放:回答这个问题之前我们首先需要弄清楚:你到底用机器学习的方式去解决什么样的问题,并要能够把目标清晰地用数学语言给定义出来。人工更多的是需要编程,需要设计好机器学习的流程,使得机器可以按照人设定的那个目标去运作。

目前我们使用的是一些比较成熟的算法:

分类算法(回归和分类)

我们用已知答案的数据去推断未知答案的可能性,在算法上称为有监督的学习。一般常用的是回归算法,以及在回归算法基础上衍生出的分类算法。

例如,如果把已经看过某广告的人中点击人群作为采样数据,那基于这些数据,就可以在一个更大的人群范围里分析,根据他们和已知人群特征的相似性判断他们点击该广告的可能性,这就是逻辑回归。

再举一个有意思的例子:如何猜测一个人的性别呢?大多数网站其实并没有可靠的人口属性数据源,但他们会掌握采样数据。如果有一千人的访问量,其中三百个是男的,七百个是女的,在这种情况下,想知道另外一百万用户的男女人数。就可以先研究这一千人中男女用户在网站上浏览的行为模式,了解其中的差异性,将这差异性应用到一百万的用户上,就可以大致推测那一百万个用户中每个用户是男性或女性的概率。这也是一个典型的分类问题。

聚类算法

聚类是另一种思路的算法。比如我们有一百万篇文章,但我们并不知道每篇文章应该被分到哪个类别中,甚至我们不知道该把文章分成多少类,这时候就需要采用无监督学习的方式来进行,我们称之为聚类。

对于文章,我们可以用算法提取它们的主题关键词,再根据关键词的相关性和重合性,把特征近似的文章归到同一类别下,形成文章类簇。

更进一步,根据用户对不同类别文章的浏览历史,我们还可以进一步对用户的行为进行聚类,由此形成用户的聚类标签。用户聚类可以用于效果类广告的优化。

九枝兰:这些算法是如何互相组合和相互作用的呢?广告平台如何调优这些算法进行协同作业?

管延放:这里主要用到三大策略:

机器算法优劣评估的KPI

这是最基本的,所有的机器算法都会定义明确的KPI公式,就是说所有的机器学习的目标都在优化这个公式最后算出来的KPI,把它最大化或者最小化,这个是最核心的。比如点击模型,我们就可以看它点击预测的误差总和,那所有对参数的优化,都是为了去降低这个误差总和。

组合策略

有时同一件事,我们可以用几个算法同时去进行模拟或预测。可能在不同的细分场景下不同算法的效力是不一样的,那我们就可以用类似投票的策略,来提高算法预测总体的准确性。假设我们同时运行了十个性别判定的算法,6个显示用户是男性,4个显示它是女性,那我们就可以把他作为男性来对待,即使未必全准,但也会稳妥很多。

A/B test

系统同时跑A算法和B算法,最后再用已经掌握的那部分数据去判别A系统和B系统的优劣与有效性。这种方法在互联网界已经非常普遍了,并不仅限于算法的评估。很多策略,甚至是界面的设计,都会用A/B测试的方式来决定取舍。

九枝兰:广告投放效果除了受数据算法的影响,还会受哪些因素影响?

管延放:创意本身、广告投放时间、广告投放位置都会影响效果。因为一些效果类的广告主,他们愿意在广告系统里做很多调整,这就是所谓的运营优化。其实我还是相信,有些做法它可能会使效果提升,但也有可能在降低系统帮你优选的效率,其实未必是最优的。从机器的角度来说,人做的越多,机器可以帮你优化的空间越小。但目前行业里很多的同仁仍然坚持人工干预加机器推荐的方式来执行。

九枝兰:未来大数据运用与广告行业的理想状态应该是怎么样?

管延放:理想状态应该是数据流转比较充分,大家能够以一种合理合法的方式对数据进行充分的开发和利用,广告效果越做越好,投放人群越来越精准。广告其实和互联网的其他行业一样,未来的趋势是用机器尽可能的取代人力做一些更智能化的事情。

数据合作最主要的边界还是需要在行业里面建立一些信任关系,比如有些公司帮你存数据,存了几年以后他开始自己做数据生意,那这种信任关系其实就完全被打破了。如果大家是都这样,谁都不把数据拿出来,很多人说中国的互联网更像是几大数据孤岛。就因为缺乏信任,你的数据没法流转,很难使数据发挥更大的效应。

搜狐现在其实在数据上非常开放,我们不是严格的只进不出,我们更多的是大家一起合作,如何利用好数据。很多公司现在都在做所谓的数据求大求全,其实我觉得也不一定,如果你有一块比较独特的,别人没有的或者不那么容易拿到的数据,并且这块数据真的能够对营销的过程产生价值,其实就已经是一个很好的合作开端了。

九枝兰:想请教一个敏感的问题——关于流量作弊,现在程序化广告行业流量作弊的现状是怎样的?

管延放:程序化广告中的流量作弊现状较严重,甚至我们搜狐投放广告的时候,也碰到类似的问题。但我还是倾向于用比较善意的眼光去看待这个事情,并不是说谁都想去作弊。现在主要的挑战是:我们怎么样用更好的机制去鉴别出这部分所谓的异常流量/非人流量,并且能够在各环节的能力范围内尽可能的去把好各自的那一关。

现在已知的一些作弊手段,比如刷量、伪造IP,上报拦截、浏览器模拟等。有些我们在日志里就能看到一些端倪。但也未必都是非人流量。比如同一个IP一天一千次访问,是不是就能判断为流量作弊?如果这个IP是一个人的话确实存在流量作弊的嫌疑,但你要知道中国还有那么多代理服务器、小区宽带、共享带宽,这都是共享IP,所以其实有的时候你很难用一些单一维度判断异常流量。

至于作弊流量在整个大流量当中它的占比是多少,这个确实我们现在也没有太明确的数据,因为没有太统一的标准去给流量做定判,我只能说某些流量作弊的可能性很高,有些流量作弊的可能性低。

九枝兰:媒介在流量作弊中扮演的是怎样一种角色?

管延放:我觉得其实它也是受害者,在广告的投放过程中,其实有作弊动机的利益方很多,比如内容提供方、版权提供方、广告销售方、代理公司,这是一个很长的链条,但这个链条上一旦出现问题,大家的第一反应往往都是先在媒体方身上找问题。

从技术手段上来说,最简单的当然就是设一些规则,我们看到有一些明显不合理的现象,比如说一个用户在一分钟里面点击了二十次,我们就用规则把它过滤掉,在后续收那个广告主钱的时候,不计算这部分的消耗。

我举的例子可能过于简单,实际上过滤流量作弊的规则有几百条,它能过滤出来流量还是非常可观的。但我需要强调的是,作弊规则只是人定出来的规则,它过滤出来的流量未必是作弊,只是从保护广告主的利益角度出发,我们愿意在质量上做更高的确保。

另外,技术手段永远是流量质保的最后一环,更重要的是大家齐心协力建立一个更良性的合作机制。比如对不诚信行为做一些惩罚,或者说大家建立信息对称的机制,这些良性机制会很重要,我们搜狐和很多合作公司也在为此共同努力。

今日热点

特别推荐

奇闻轶事

小编精选

热点排行

热门推荐