现代电影技术 N应用技术研究
VOD电影推荐算法比较研究
中国传媒大学 王 妍 檀雷雷
国家新闻出版广电总局电影数字节目管理中心 肖 凯 北京市政务信息安全应急处置中心 江 茜
【摘要】本文基于某省网有线电视点播数据,结合数据分析电影推荐算法,比较研究了近邻模型和矩阵分解模型。针对标准数据集,研究基于奇异值分解的推荐、隐含因子模型及基于非负矩阵分解的推荐,其中基于非负矩阵分解的推荐精度更高。
【关键词】推荐算法 隐含因子 协同过滤 矩阵分解 近邻推荐 奇异值分解
引言
户和物品的距离来进行推荐。这两种模型从不同的角度对用户行为进行建模虑用户行为。
目前,电影推荐的研究主要是基于用户的评分数据,根据已知的用户评分预测未知评分,并将评分高的项目作为推荐结果。此外,用户的隐性反馈行为也能够作为推荐系统的数据源,比如用户的浏览观看行为以及评论等行为。通常,可以基于统计分析技术将其转换为评分再运用相关推荐模型。
[5]
电影是深受人们喜爱的电视节目类型之一,在
点播业务中拥有较高的市场份额。自2010年以来,国内电影市场发展迅猛,通过对有线电视交互平台的电影点播业务进行分析,可以为用户提供个性化的影片推荐服务,帮助用户从大量的节目资源中快速发现感兴趣的内容。
过滤算法的提出为标志。1994年,明尼苏达大学提——G,用于对网出首个个性化推荐系统—rouLensp络新闻进行协同过滤
[1]
现用户行为的特征,后者则倾向于从全局角度来考
,前者倾向于从局部发
推荐系统的研究始于上个世纪90年代,以协同
荐算法可以分为协同过滤推荐、基于内容的推荐、基于社交网络或标签的推荐等
[2]
。根据使用数据的不同,推
。其中,协同过滤
1电影推荐系统
目前,业界存在许多已商用的电影推荐系统,在广电开展VOD电影推荐业务时可以借鉴相关经在获取这些数据之前,首先对推荐算法进行梳理。验。影片信息和用户的历史行为是推荐系统的前提。
算法由于不需要领域知识而应用广泛。具体地,协同过滤算法包括基于内存的推荐和基于模型的推荐两种
[]3
算法为代表,原理简单并且具有较好的可解释性,后者则主要依托数据挖掘模型等在推荐系统的应用,其中,矩阵分解在Netflix推荐大赛中取得了单一模型的最好精度
[]4
。前者以基于用户或项目相似度的近邻推荐
2推荐算法研究
协同过滤是应用最为广泛的推荐算法之一,具体包括基于内存的协同过滤和基于模型的协同过滤两类。前者以基于相似度的近邻模型为代表,后者以矩阵分解模型为代表。本文主要采用了基于物品相似度的近邻推荐算法,重点比较物品之间的相似度选择对推荐精度的影响,常用的有皮尔逊相关系数、余弦相似度、平方距离倒数相似度以及Jaccard相似度。通常,在算法研究之前需要确定待研究的
近邻模型将用户(物品)看作物品(用户)的集合,对用户(物品)的推荐问题被转换为物品(用户)之间的相似度计算问题。而矩阵分解模型将用户和物品投影到同一个向量空间,并直接根据用
,并具有较好的推荐速度。
—37—
/o.62018 ADVANCEDMOTIONPICTURETECHNOLOGY
现代电影技术 N应用技术研究
数据集。
这些数据集都是用户对影片的显式评分行为。协同过滤算法受数据集的影响明显,数据越稀疏推荐的效果越差。在标准数据集(以Movielens为例)中,平均每个用户对100多个物品产生行为。由于协同过滤的基本思想是基于用户的历史行为预测未来,易知历史行为越丰富推荐的准确度越高。并且,数据的质量也是影响推荐准确度的重要因素,通常可以采用邀请用户打分的方式来提升数据的可靠性。
表1 广播电视点播收视数据集
数据集名称原始点播数据集点播数据集1
用户
节目
行为个数
稀疏度99.73%94.04%96.48%
51563112031,564,1351723
395392
40,56935,580
分析,包括用户总数、物品总数、用户活跃度分布(包括平均每个用户产生行为的物品数、单个用户产生行为物品数的最小值等)以及物品流行度分布等。
推荐算法领域常用的标准数据集如表1所示,
图1 节目流行度曲线(原始点播数据集)
)2点播数据集2(movie577
本文使用的点播数据则主要记录了用户观看影片的时间及时长,属于客观的收视行为,但由于是用户的“主动”点播,因而可以在一定程度上反映其偏好,属于有上下文信息的隐性反馈数据。原始数据集中,包含51,563个用户对11,203个节目的点播行为,平均每个用户对30个节目产生行为。
2.1输入数据
图2 节目流行度曲线(点播数据集)
2.1.2隐性反馈处理
用户对影片的点播收视行为属于隐性反馈行为,
在推荐系统中通常有两种方式处理隐性反馈行为:()设立阈值,对用户的收视记录进行选择,比如1
将收视完整度小于20%的记录删去将收视完整度转换为可信度
C1+αrui=ui
[11]
[10]
现有的电影推荐算法研究大多基于用户的显式flix等。
、N评分行为,常用的标准数据集有MovieLenset-本文使用的点播数据集则记录了用户对影片的
)分值转换,标记用户对节目是否存在收视行为;(2
,公式如下:
()1
,并用0、1
观看时间及时长,虽是客观的收视行为,但由于是用户的“主动”点播,因而可以在一定程度上反映其偏好,属于有上下文信息的隐性反馈数据。
此外,有效的数据预处理往往比复杂的算法改进更能提升推荐准确率
[]6
rα为常量且取ui为用户u对节目i收看的完整度,40时效果较好。
其中,Cui代表用户u对节目i偏好的可信度,
尤其对于基于内存的算法,当数据量增长时耗时较高,对输入数据进行选择能够提升推荐的速度与精度
[7]
。
方便算法研究。
。因此,对原始点播数据集进行选择,以
图3 点播记录收视完整度分布 图4 转换后的收视可信度
2.1.1点播数据描述
在算法研究之前通常需要对数据集进行描述性此外,对于直播节目的收视行为转换通常需要
—38—
/o.62018 ADVANCEDMOTIONPICTURETECHNOLOGY
现代电影技术 N应用技术研究
考虑节目时长的影响。由于本文选取的是用户对影片的点播行为,而影片的时长一般比较固定,因此直接将收视时长转换为收视完整度进行推荐实验。
2.1.3实验策略
将点播数据集划分训练集、测试集,在训练集
近邻推荐基于用户行为数据计算用户/物品之间的相似度,并根据邻居的行为进行推荐,具体又分为基于用户相似度的推荐和基于物品相似度的推荐。一般地,当系统中的用户数大于物品数时采用基于物品相似度的推荐效果较好。以基于物品相似度的邻域推荐为例,算法步骤如下。
尔逊相关系数、余弦相似度、平方距离倒数相似度以及Jaccard相似度等。
earsonpij=
()皮尔逊相关系数1
))(Σrrrru∈U(i∩U(ui-i)(ujj-j)2上训练模型并求解算法参数,在测试集上对推荐算法进行评价。通常,训练集数据越多,推荐算法的精度越高。例如,在NetflixPrize(2006)数据集99,072,112个评分,测试集包括1,408,395个评通常,可以采用热门推荐、随机推荐、全局偏置等策略与推荐算法进行对比。
2.1.4算法评价
具体地,推荐算法评价主要分为评分预测问题中共包含100,480,507个评分,训练集包含
步骤1:定义物品之间的相似度,常用的有皮
分,平均基于70个已知评分来预测一个未知评分。
的算法评价和TOPN推荐的算法评价两类。本文主要研究的是TOPN推荐,也即为每位用户提供一个长度为N的有序节目列表。评价指标定义如下:
n
)|Σhit(ii=1|
Precision=
n×L
rrui表示用户u对物品i的评分,i表示所有用户对物品i的平均评分。
cosineij=:度的差别)
()余弦相似度2
Σ)表示对物品i评分的用户集合,其中,U(i
))())(Σrrrru∈U(i∩U(ui-i)Σu∈U(i∩U(ujjj-j)2()5
()准确度1
示用户i的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度。
()召回率2
)表其中,n表示测试集上的用户个数,hit(i
()2
()改进的余弦相似度(考虑不同用户评分尺3
2)uu∈U(ii
))Σrru∈U(i∩U(uiujjrΣ2)uu∈U(jj
r()6
cosine_advancedij=
2()J4accard相似度accardjij=
|U|U)()(Σrrrru∈U(iui-i)Σu∈U(ujj-j)2))(Σrrrru∈U(i∩U(ui-i)(ujj-j)()7
n
)|Σhit(ii=1|
Recall=n
)|Σtest(ii=1|
测试集上实际点播的节目列表的交集中元素的个数,数。
):用户i在测试集上实际点播的节目个test(i()F31指标:
):用户i的推荐节目列表与其在其中,hit(i
()3
)∪U()|表示用共同评分物品的数量,|U(ij户i和用户j评分物品并集的数量。
步骤2:确定每个物品的邻居集合,一般通过步骤3:根据邻居物品进行推荐,评分预测公
)∩U()|表示用户i和用户j其中,|U(ij
()∩Ui
()∪Ui()|j
()|j
()8
在训练集上进行多次测试来确定相似度阈值。式如下:
2×Precision×Recall
F1=
Precision+Recall2.2近邻推荐
()4
F1指标综合了推荐准确率与召回率。
2.2.1模型原理
k
()是与物品i是用户u产生行为的物品集合,Si
)k())rsim(i,j∈R(u∩Siu︵Σjj
()r9ui=)k())Σsim(i,j∈R(u∩Sij
︵
)其中,ruui是用户u对物品i的预测得分,R(
—39—
/o.62018 ADVANCEDMOTIONPICTURETECHNOLOGY
现代电影技术 N应用技术研究
最为相似的k个物品,sim用于计算两个物品之间的相似度,包括上文提到的各种相似度计算方法。评分预测公式中加入偏置项,评分预测公式如下:
)k())(Σrbsim(i,j∈R(u∩Siuu︵jj-j)
()r=b+10uiui
)k())Σsim(i,j∈R(u∩Sijbb+bbui=u+i
式中的bui为偏置项,计算公式如下:
()11
通常,为考虑全局用户行为的影响,可在上述
推荐准确率较高。
2.2.2.2不同邻居数对推荐的影响
根据表2确定的评分转换方式,选择不同个数
的邻居用于推荐。由表3可以看出,K取1时推荐精度较高,这与许多标准数据集上的实验结果存在差异。可能的原因是,数据较为稀疏,计算的节目相似性普遍不高。
)表3 不同K值下的近邻推荐结果(N=20
邻居数目(K)
12345678102030409
Precision0.0180.0170.0150.0150.0160.0150.0140.0140.0130.0130.0120.0100.008
0.0430.0400.0360.0360.0370.0360.0340.0330.0320.0300.0270.0230.020Recall
用户u的平均评分与全局评分的偏差,bi代表物品i的平均评分与全局评分的偏差。
相似度的计算是近邻推荐的关键,由于没有考虑物品的内容信息,上述相似度计算通常会出现热门物品之间比较相似的情况,因此可以在相似度计算中对活跃用户进行惩罚、相似度重新缩放准确度。
2.2.2实验过程
2.2.2.1不同评分转换方式对推荐的影响
表2 不同评分转换方式下的近邻推荐结果
Precision0.0110.0120.0130.0120.0010.0090.0100.0130.012
收视完整度转换方式四舍五入,10分制四舍五入,5分制四舍五入,2分制>5%为1,其它为0四舍五入,1分制
Recall
[10]
[]8
其中,b表示全部用户评分项的均值,bu代表
户对物品相似的贡献。此外,还可以采用归一化测中的权重,以及邻居选择方法
[11]
,例如,加大不活跃用
[9]
等方式调整相似度在评分预
等提升推荐的
2.2.2.3不同的相似度计算方法对推荐的影响
0.0260.0290.0300.0290.0040.0220.0240.0300.028
方法用于推荐。由表4可以看出,采用Jaccard相似度时的推荐精度较高。
表4 不同相似度计算方法的近邻推荐结果
相似度计算方法皮尔逊相似度Jaccard相似度平方距离倒数余弦相似度改进的余弦相似度
Precision0.0180.0630.0190.0140.044
[5]
取1个近邻进行推荐,选择不同的相似度计算
>20%为1,其它为0>50%为1,其它为0>80%为1,其它为0>90%为1,其它为0
0.0430.1470.0440.0340.103
Recall
试验不同的评分转换尺度对推荐准确度的影响,采用10个近邻,基于皮尔逊相似度的物品协同过滤推
在点播数据集1上进行近邻模型实验。首先,
荐,推荐列表长度为20,进行实验。由表2可知,收视行为的评分转换对推荐准确率影响并不明显,将收视完整度四舍五入转换为0或1的整数评分时
的准确率,压缩公式如下:
对Jaccard相似度进行压缩
,以期提升推荐
()12
nii
))sim(i,'=sim(i,jj
nλii+2
其中,nii代表对物品i和物品j同时评分的用户
—40—
/o.62018 ADVANCEDMOTIONPICTURETECHNOLOGY
现代电影技术 N应用技术研究
数量,λ2可通过实验结果确定。由表5看出,对相似度进行压缩并不能提升推荐精度。
λ2
Precision0.0600.0590.059
表8 添加全局均值偏置后不同K值下的近邻推荐
邻居数目(K)
12345
Precision0.0640.0610.0530.0450.039
0.1520.1420.1250.1060.092Recall
表5 不同程度的相似度压缩对推荐的影响
1005020
0.1410.1370.139
[]10
Recall
升推荐的准确率,评分预测公式如下:
l
)k())rsim(i,j∈R(u∩Siu︵Σjj
rui=l
)k())Σsim(i,j∈R(u∩Sij
对Jaccard相似度进行幂函数调整
,以期提
()13
3结论
键参数。当K趋于无穷时,相当于考虑了全体用户相当于只考虑最近邻居对当前用户的影响,而近邻的确定又取决于具体的相似度计算方法。协同过滤模型的基本假设是,拥有较多共同行为的用户之间具有较高的相似性,拥有较多重叠用户的物品之间具有较高的相似性。并且,同一种相似度计算方法在不同的数据集上往往表现不同。
近邻的搜索方法是影响算法效率的关键。尤其对于大规模的数据集,有效的近邻搜索十分必需。通常,对用户或者物品进行聚类能够减少近邻搜索的范围,提升推荐速度。
总体来看,近邻模型原理较为简单,通过相近的邻居来预测用户行为,具有较好的可解释性。然而由于没有进行维度约减,也没有利用物品(用户)的内容信息,计算的相似度结果可靠性不高。
注释
本文受中国传媒大学教改项目“基于数据科学的传媒统计课程)”资助。教学模式研究(2018
在近邻模型中,近邻个数(K值)是算法的关
表6 幂函数调整的Jaccard相似度
123456789L
Precision0.0630.0610.0610.0620.0630.0640.0640.0620.0640.0660.063
0.1470.1460.1440.1440.1480.1510.1510.1450.1500.1560.146Recall
(除当前用户外)对当前用户的影响;当K取1时,
1020
2.2.2.4偏置项对推荐结果的影响
所示,考察偏置项对推荐结果的影响。由表7可以看出,添加全局均值偏置能够提升准确度。
表7 不同偏置项下的近邻推荐模型
偏置项无偏置
)全局均值偏置(仅b
Precision0.0630.0640.0610.061
0.1470.1520.1460.145Recall
向评分预测公式中加入偏置项,如公式(10)
参考文献
Berstrom,JohnRiedl.GrouLens∶AnOenArchitectureforCol-gpp
[]J2amesBennett,StanLanninNetflixNetflix.TheNetflixg,[]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[]3J.[]梁冰,张玉忠,金铎.协同过滤中的矩阵分解算法研究[]4J[]P1aulResnick,NeohtosIacovou,MiteshSuchak,Peterpy
用户均值偏置(仅bu))节目均值偏置(仅bi
)laborativeFilterinfNetnews,(1994.go)Prize(2007.
以及推荐列表长度为20,再次试验邻居个数(K值)对推荐的影响。由表8可知,仍是K取1时推荐精度较高。
最后,取Jaccard相似度,添加全局均值偏置
)∶1-1自然科学进展,2009,19(15.)∶7.广东通信技术,2013,(86-79.
(下转第18页)
—41—
/o.62018 ADVANCEDMOTIONPICTURETECHNOLOGY
现代电影技术 N研发与应用
择。
移动端及PC的软解码也随之实现;2014年则已经实现了STB、TV、移动端的硬解码以及软硬结合的编码;到了2015年,已经有成熟的硬件编码的芯片、编解码器,许多多媒体产品也都添加了对HEVC的支持。不仅在电视端,针对各种OTT设备、智能手机、直播编码设备乃至安防设备都推出了HEVC的编码。
2013年HEVC第一版标准发布以后,对应的
/4K60fs甚至更高帧速率视频录制,在AR技术中p更有利于实时的跟踪。这些也必将成为未来的发展趋势之一。
5HEVC编码应用展望
因为开发难度大、对硬件支持的要求高,H.265的发展还需要不断的优化,才能更好的应用。但影像编码的发展趋势必将朝着更高的压缩率和更高的画面质量,虽然如今H.264仍占据了80%左右的市场,但在不久的将来,H.265必将凭借自身的优势逐渐占领主流市场。
注释
本文由国家科技支撑计划《家庭数字影院整体方案与关键技术)支持。研究》(2015BAH32F01
现在常见的家庭娱乐端的高质量影像之一,其推出的4K视频称为UHDBD,蓝光组织所提倡的该规格有以下几个特点:HEVC编码、10bit位深以及支持HDR,色域支持至BT.2020。
在家庭娱乐终端中,蓝光推出的4K可以说是
增强现实,A4K视频文件。随着AR(umentedg)技术的普及,HERealitVC可以帮助手机端实现y
视频的拍摄,不少厂商都投入研发用HEVC编码
除此之外,越来越多的智能手机开始支持4K
参考文献
其扩展[M].北京∶电子工业出版社,2016.
[]朱秀昌,刘峰,胡栋.H/1.265HEVC:视频编码新标准及
(上接第41页)
]facetedcollaborativefilterinodel[J.InProc.ofthe14thACMgm,SIGKDDconference2008∶426-434.
[]Am6atriainX,PuolJM,TintarevN,etal.RateitAain∶jg
[]K5orenY.Factorizationmeetstheneihborhood∶amulti-g
]dationAlorithms[J.EvaluationofItemBasedToecommen-gpNR,dationAlorithms2000∶247–254.g
[]G10anM,Jian.Imrovinccuracnddiversitfper-gRpgayayo
[]K9arisG.EvaluationofItem-BasedTo-NRecommen-ypp
]IncreasinecommendationAccuracserreRatinJ.Pro-gRybyUg[,ceedinsoftheAcmConferenceonRecommenderSstems2009.gy
[]7Instanceselectiontechniuesformomorasedcollabora-qy-b[]项亮,推荐系统实践[8M].人民邮电出版社,2012∶49.
],)∶8similarities[J.DecisionSuortSstems2013,55(311–ppy821.
sonalizedrecommendationthrouhpowerlawadustmentsofusergj
,tivefilterinSDM,2002,YuK.g
rativefilterinasedrecommendersstemsresultsusinaretog-bygP],)∶5dominance[J.InformationSciences2013,239(40–61.
[]O,,11rteaF,SánchezJBobadillaJetal.Imrovincollabo-gpg
—18—
因篇幅问题不能全部显示,请点此查看更多更全内容