數據挖掘技術影視智能推薦算法分析

時間:2022-06-09 03:14:04

導語:數據挖掘技術影視智能推薦算法分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據挖掘技術影視智能推薦算法分析

摘要:針對當前影視智能推薦算法的推薦誤差大、推薦時間長等局限性,以提高影視智能推薦精度為目標,獲得理想的影視智能推薦結果,提出基于數據挖掘技術影視智能推薦算法。該算法首先對影視智能推薦的工作原理進行分析,指出各種影視智能推薦算法的弊端;然后收集大量的影視智能推薦數據,根據數據得到用戶⁃影視評分矩陣及相似度計算公式;最后引入數據挖掘技術建立影視智能推薦模型,并與其他影視智能推薦算法進行仿真對比實驗,結果表明,該方法是一種精度高、速度快的影視智能推薦算法,相對于其他影視智能推薦算法,該算法的影視智能推薦整體效果更優,具有十分廣泛的應用前景。

關鍵詞:影視推薦;人工智能技術;大數據分析;數據挖掘;用戶評分矩陣;仿真測試;推薦效率

近年來,隨著移動通信技術和無線網絡技術的發展,它們已經滲透到人們生活的各個領域,移動通信已經影響到了人們生活的各個方面[1]。在新媒體技術的影響下,人們將一些歷史題材改編成了電視、電影,影視數據的數量大幅度增加,隨著人們生活水平的不斷提高對精神生活要求越來越高,而影視推薦網站層出不窮人們要在短時間內找到自己喜歡的影視作品十分困難故出現了“影視過載”問題[2]。為了解決“影視過載”問題,出現了影視智能化推薦系統,而影視推薦算法是最為核心的內容[3⁃5]。為了獲得理想的影視智能推薦效果,本文提出了基于數據挖掘技術的影視智能推薦算法,并與其他方法進行影視推薦對比測試,結果表明,本文方法是一種精度高、速度快的影視智能推薦方法,相對其他方法,本文影視推薦方法具有十分明顯的優越性。

1影視智能推薦算法的相關研究

針對影視推薦問題,國內外學者進行了大量深入的研究,當前存在許多影視推薦系統[6]。一個影視推薦系統大致包括:用戶使用影視的歷史記錄、影視推薦算法、影視推薦結果的服務決策信息,其中影視推薦算法是核心,也是最為關鍵的部分。當前推薦算法大致可以劃分為4類:基于協同過濾的影視推薦算法、基于內容的影視推薦算法、基于關聯規則的影視推薦算法、基于知識的影視推薦算法[7]。其中,協同過濾的影視推薦算法是最早的算法,可以細化為基于內存的影視推薦算法和基于模型的影視推薦算法,在實際中該類算法不關心用戶歷史行為記錄,因此存在冷啟動和稀疏性問題,同時,影視推薦時間長,無法進行在線影視推薦[8⁃10]。基于內容的影視推薦算法模擬信息檢索和過濾的過程,根據用戶的偏好和影視內容之間的匹配度進行影視推薦,該類算法的自學習能力差,無法發現潛在的用戶;基于關聯規則的影視推薦算法工作過程簡單,影視推薦實時性強,但是存在冷啟動和稀疏性問題,同時一旦規則太多,那么影視推薦效率就比較低;基于知識的影視推薦算法是針對特定領域的影視制定推薦算法,因此通用性比較差[11⁃13]。綜合當前影視推薦算法的研究現狀可以發現,每一種影視推薦算法或多或少存在一定的不足和局限性,因此影視推薦算法研究面臨巨大的挑戰[13⁃16]。

2基于數據挖掘技術的影視智能推薦算法

2.1影視數據的采集與保存

隨著計算機網絡的不斷發展,許多公司將一些影視數據發送到網絡上,使得影視數據急劇增加,當前影視數據呈現大規模、海量特征,采用傳統單機平臺進行影視推薦效率極低。本文首先采集大量的影視數據,然后對影視數據進行預處理,并將預處理的影視數據保存在云平臺的分布式文件系統中。分布式文件系統具有速度快、處理能力強等優點,可以存儲海量的影視數據。一個分布式文件系統包括一個NameNode和多個DataNode,其中NameNode是主服務器,它可以接收用戶請求,并對文件進行管理,而DataNode是多個計算機,主要用來存儲數據,分布式文件系統的基本結構具體如圖1所示。圖1分布式文件系統的基本結構

2.2影視數據的預處理

由于影視數據保存在分布式文件系統中,因此需要生成用戶對影視的評分數據。用戶對影視的評分數據由三部分組成:用戶編號(U_ID)、影視編號(M_ID)、用戶對影視的評分(Score),本文采用云計算技術中的Map/Reduce實現,生成用戶向量和影視向量,其中用戶向量是一個用戶對所有影視的評分,影視向量是所有用戶對一個影視的評分。2.2.1用戶向量生成步驟Step1:從分布式文件系統中讀取影視數據,并計算用戶的影視評分。Step2:通過Map將用戶對影視的評分分為兩部分:U_ID和M_ID、Score,其中,U_ID作為Map的key,M_ID、Score作為Map的value,它們組成<key,value>。Step3:根據key進行排序,將key相同的用戶的影視評分放在一起。Step4:Reduce對相同用戶的影視評分數據進行整合,得到一個用戶對所有電影評分的集合。Step5:構建用戶⁃影視評分矩陣,并計算它們的平均值,從而產生用戶評分向量。具體步驟如圖2所示2.2.2影視向量的生成步驟Step1:將用戶評分向量作為Map的輸入,對用戶評分向量進行分解,將M_ID作為key,將U_ID、Score作為Map的value,形成<key,value>。Step2:根據key進行排序,將key相同的用戶數據放在一起。Step3:Reduce對用戶數據進行整合,將得到的key作為M_ID,vU_ID、Score作為value,即為所有對影視評過分的用戶集合。Step4:將生成的數據保存在分布式文件系統中。具體如圖3所示。

2.3用戶⁃影視評分的構建

用戶對影視的評分主要通過興趣程度描述,假設有m個用戶,對n部影視進行評價和打分,第i個用戶對第j部影視的評分分值為rij,本文采用Movielens的5分制作為評分標準,分值越高表示用戶對該部影視越感興趣,那么用戶⁃影視評分矩陣可以表示為:

2.4相似度計算

對于用戶⁃影視評分矩陣,根據用戶向量之間的距離估計用戶之間的相似度,用戶向量之間的距離越近,表示用戶的相似度越高,當前相似度的計算方式主要有:1)基于歐氏距離的相似度式中:rˉu表示用戶u共同評過分的影視的平均分;rˉv表示用戶v共同評過分的影視的平均分。本文采用皮爾遜相關系數計算用戶相似度。

2.5最近鄰算法查找到前k個最近鄰“鄰居”

對于給定的訓練樣本集,最近鄰算法根據樣本之間的距離找到最近的k個鄰居樣本,將k個鄰居頻率最高類別作為待識別類別。本文采用皮爾遜相關系數計算用戶的相似度,然后根據相似度值進行排序,選擇前k個最近鄰“鄰居”生成目標用戶的最近鄰用戶集合。

2.6計算預測評分并產生推薦

計算用戶預測評分,并根據用戶預測評分產生影視推薦結果,采用中心加權平均值的方法計算用戶u對未評分影視i的預測評分,具體如下。

3影視智能推薦算法的性能測試與分析

3.1影視智能推薦實驗數據集

為了測試基于數據挖掘技術的影視智能推薦算法的性能,采用影視推薦經典數據集——Movielens數據集作為測試對象,從中選擇Movielens⁃100k進行具體仿真實驗,選擇80%的數據作為訓練樣本集合,20%的數據作為測試樣本集合,Movielens的三組不同規模的數據集具體如表1所示。

3.2影視智能推薦實驗環境

影視智能推薦實驗平臺包括5個節點、1臺服務器、4臺普通計算機,具體配置如表2所示,采用Java語言實現影視智能推薦算法。在相同條件下,選擇文獻[12⁃13]的影視智能推薦算法進行對比實驗,選擇影視智能推薦精度和時間作為實驗結果的評價指標。

3.3影視智能推薦精度對比

采用三種方法對訓練樣本集合進行學習,建立影視智能推薦模型,然后對測試樣本集合進行分析,統計每一種方法對每一個數據集的推薦精度,結果如圖4所示。從圖4可以看出,相對于文獻[12⁃13]的影視智能推薦算法,本文算法的影視智能推薦精度大幅度提升,減少了影視智能推薦誤差。

3.4影視智能推薦效率對比

采用單機平臺的影視智能推薦算法進行對比實驗,統計兩種方法的影視智能推薦時間,結果如圖5所示。從圖5可以發現,相對于單機平臺,本文算法的影視智能推薦時間明顯減少,這是因為本文引入了大數據分析的云計算平臺,提高了影視智能推薦效率。

3.5影視智能推薦算法的通用性測試

為了測試影視智能推薦算法的通用性,通過移動網絡采集大量的影視數據,將它們劃分為100類,統計本文算法對100類影視的推薦精度,結果如圖6所示。從圖6可以看出,本文算法的平均影視智能推薦精度超過了95%,獲得了令人滿意的推薦結果,能夠適應移動環境下的影視推薦應用要求。

4結語

影視智能推薦是當前人工智能技術中的研究熱點,針對傳統影視智能推薦算法存在的弊端,為了提高影視智能推薦的精度,本文提出基于數據挖掘技術的影視智能推薦算法。采用多個影視數據集合進行仿真測試,結果表明,相對于其他影視智能推薦算法,本文方法獲得了較高精度的影視智能推薦結果,影視智能推薦效率得以改善,具有十分廣泛的應用前景。

參考文獻

[1]陳琳娜.影視作品影響力評價指標體系和評價方法研究[J].南京藝術學院學報(音樂與表演),2017,22(4):165⁃174.

[2]鄧云,馮嘉禮.基于定性映射的影視推薦系統的應用與研究[J].現代計算機(專業版),2014(2):3⁃7.

[3]丁家滿,沈書琳,賈連印,等.一種基于協同過濾和混合相似性模型的推薦算法[J].上海理工大學學報,2020,42(3):275⁃282.

[4]劉曉飛,朱斐,伏玉琛,等.基于用戶偏好特征挖掘的個性化推薦算法[J].計算機科學,2020,47(4):50⁃53.

[5]羅國前,劉志勇,張琳,等.移動環境下基于情境感知的個性化影視推薦算法研究[J].計算機應用研究,2020,37(5):1306⁃1310.

[6]王珊珊.智能推薦系統在個性化數據挖掘中的應用研究[J].山東農業工程學院學報,2019,36(6):28⁃29.

[7]王曉通.大數據背景下電影智能推送的“算法”實現及其潛在問題[J].當代電影,2019(5):64⁃70.

[8]王運,倪靜.基于用戶行為序列的概率矩陣分解推薦算法[J].小型微型計算機系統,2020,41(7):1357⁃1362.

[9]王忠,周慶標,方杰,等.社會標簽情感分析的個性化影視推薦算法研究[J].電聲技術,2012,36(7):58⁃63.

[10]徐紅艷,趙宏,王嶸冰,等.融合用戶相似度的影視推薦系統研究[J].遼寧大學學報(自然科學版),2018,45(3):193⁃200.

[11]陽甫軍,李博.基于協同過濾的影視營銷推薦算法研究[J].現代商貿工業,2019,40(17):52⁃53.

[12]尤耀華,吳文琦.基于矩陣分解的感知興趣點智能推薦算法仿真[J].計算機仿真,2020,37(2):463⁃466.

[13]于亞新,劉夢,張宏宇.Twitter社交網絡用戶行為理解及個性化服務推薦算法研究[J].計算機研究與發展,2020,57(7):1369⁃1380.

[14]李家華.基于大數據的人工智能跨境電商導購平臺信息個性化推薦算法[J].科學技術與工程,2019,19(14):280⁃285.

[15]秦瑩.基于數據挖掘技術的電子商務移動支付風險預測[J].現代電子技術,2020,43(21):106⁃109.

[16]潘瑩,王君.數據挖掘的光纖光柵傳感器復用解調技術[J].激光雜志,2020,41(10):187⁃191.

作者:王小青 蘇鋒 蔡傳根 單位:東北大學秦皇島分校管理學院 安徽理工大學