云计算 java linux Python 开源 google Firefox 编程 centos Android apache nginx 程序员 wordpress Ubuntu mysql shell 微软 php Windows

懂你的推薦算法,推薦邏輯是怎樣的?

懂你的推荐算法,推荐逻辑是怎样的?

作為一個喜歡思考人生的美男子,我時常感慨,現在這個年代,人們上網獲取信息的成本真的好低。智能手機,人手一臺,打開3G就能上網,百度一搜,什麽都有。當然百度上搜出來的大多數可能並不是你想要的,但這並不妨礙上面的論點成立。也正是因為成本太低,人們反而不願意主動取獲取信息,於是各種各樣的推薦系統有了大展身手的機會。

推薦在生活中是一個再平常不過的事情,你失業了,有人會給你推薦工作,你失戀了,有人會給你推薦姑娘。但是在我們這個機器遠沒有人類聰明的時代,這些事情要是交給機器去做,你就得設計出一套機器能理解的算法出來,這就是所謂的推薦算法。大家看到算法兩個字不要慌,以為我又要搬一個大東西出來嚇唬人。你可以把算法看做現實生活中的辦事流程,它規定了你第一步幹什麽,第二步幹什麽,只要你按它說的做,就可以把事情辦好。舉個例子,你現在要做一個電影推薦APP,我們來看下整個過程是怎樣的。

在推薦算法中,我們第一步要有一大堆要推薦的東西。也就是說,你的電影首先要足夠多,才能滿足不同用戶的需求。算法再精準,最後發現推導出來的結果,在你的數據庫中並沒有,就悲劇了。第二步是要有用戶的行為數據。這個也是越多越詳細越好。這時候你要把看了哪部電影,看完沒有,評價怎麽樣悄悄的記下來,上傳到後臺服務器。經過長期的積累,這些數據將為你以後的精準推薦奠定基礎。

有了上面的數據基礎,我們就可以進入正題了。推薦算法有不少,我們今天介紹一種最基本的叫做協同過濾算法。它的核心思想是物以類聚,人以群分。具體可以分為基於用戶的協同過濾算法和基於物品的協同過濾算法。我一直覺得專業領域起這種高大上的名字,是用來過濾智商的,因為很多人看到這裏就不打算往下看了,哈哈。

先看第一種基於用戶的協同過濾。可以簡單理解為我雖然不認識你,但是我通過查看你的朋友圈都是些什麽人,根據人以群分的道理,他們喜歡的很可能就是你喜歡的。

假設從歷史數據上來看,用戶A喜歡《捉妖記》、《大聖歸來》,用戶B喜歡《梔子花開》、《小時代》,用戶C喜歡《捉妖記》。那我們就可以簡單認為AC二人口味相似,可以歸到一個朋友圈裏,C極有可能也喜歡A所喜歡的《大聖歸來》。

這是最簡單的情況,實際上僅僅用喜不喜歡來評價感興趣程度是遠遠不夠的,用戶不可能看完還填個調查表選擇yes or no,但是會通過一些其他行為比如影評、是否收藏來反應他們的喜歡程度。機器只能理解量化的東西,所以在算法中,這些行為會轉化成相應的分數。比如完整看完的,給3分;看完還給了正面評價的,給5分;看到一半就怒刪的,給負10分。這樣每個用戶都會有一個電影評分表,在計算兩個用戶相似度的時候,把這些數據代入下面這種專門計算相似度的公式,就能得到二人口味的相似程度。

現在我們要給用戶D推薦電影,分別計算AD、BD、cd的相似度,找到跟D最相似的用戶,然後把他喜歡的,都推薦給D,就行了。(下面的公式叫做余弦相似度公式,通過計算n維空間中兩個向量的夾角余弦,來表示相似度,大家感受一下就好,感興趣的可以去問google。)

第二種是基於物品的協同過濾。基本思想是假設甲乙是相似的物品,那麽喜歡甲的人,很可能也喜歡乙。還是上面的例子,現在假設用戶E喜歡《梔子花開》和《小時代》,那我們可以推導出,喜歡《梔子花開》的用戶(B和E)都喜歡《小時代》,那基本可以確定兩部電影是相似的,下回來個用戶F,他喜歡《梔子花開》,那我順便就把《小時代》推薦給他,他可能比較容易接受。

大家可能要問,我的APP第一天上線,沒有這些所謂的用戶行為數據怎麽推薦啊。這就是推薦算法面臨的冷啟動問題。這時候可以用基於內容的算法了。你可以事先把所有電影歸個類,戰爭片歸到一起,喜劇片歸到一起,動畫片歸到一起。用戶H看了一部喜劇片,你就把所有喜劇片推薦給他。顯而易見,這種算法簡單粗暴,當然命中率也最低。

真正的推薦系統會綜合運用各種算法,加之機器學習和人工調優的不斷改進,所以是非常復雜的。

延伸阅读

评论