您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

03 facebook好友排序規則(推薦算法簡介)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-12 11:17:07【】2人已围观

简介第一個問題的簡單解決方案是找相關專業人員給物品分類。以圖書為例,每本書出版時,編輯都會給出一個分類。但是,即使有很系統的分類體系,編輯給出的分類仍然具有以下缺點:(1)編輯的意見不能代表各種用戶的意見

第一個問題的簡單解決方案是找相關專業人員給物品分類。以圖書為例,每本書出版時,編輯都會給出一個分類。但是,即使有很系統的分類體系,編輯給出的分類仍然具有以下缺點:(1)編輯的意見不能代表各種用戶的意見;(2)編輯很難控制分類的細粒度;(3)編輯很難給一個物品多個分類;(4)編輯很難給一個物品多個分類;(5)編輯很難給出多個維度的分類;(6)編輯很難決定一個物品在某一個類別中的權重。

為了解決上述問題,研究員提出可以從數據出發,自動找到那些分類,然后進行個性化推薦。隱語義模型由于采用基于用戶行為統計的自動聚類,較好地解決了上面提出的5個問題。

LFM將矩陣分解成2個而不是3個:

推薦系統中用戶和物品的交互數據分為顯性反饋和隱性反饋數據。隱式模型中多了一個置信參數,具體涉及到ALS(交替最小二乘法,Alternating Least Squares)中對于隱式反饋模型的處理方式——有的文章稱為“加權的正則化矩陣分解”:

一個小細節:在隱性反饋數據集中,只有正樣本(正反饋)沒有負反饋(負樣本),因此如何給用戶生成負樣本來進行訓練是一個重要的問題。Rong Pan在其文章中對此進行了探討,對比了如下幾種方法:

用戶行為很容易用二分圖表示,因此很多圖算法都可以應用到推薦系統中。基于圖的模型(graph-based model)是推薦系統中的重要內容。很多研究人員把基于領域的模型也稱為基于圖的模型,因為可以把基于領域的模型看作基于圖的模型的簡單形式。

在研究基于圖的模型之前,需要將用戶行為數據表示成圖的形式。本節的數據是由一系列用戶物品二元組 (u, i) 組成的,其中 u 表示用戶對物品 i 產生過行為。

令 G(V, E) 表示用戶物品二分圖,其中 V=V U UV I 由用戶頂點 V U 和物品節點 V I 組成。對于數據集中每一個二元組 (u, i) ,圖中都有一套對應的邊 e(v u , v i ),其中 v u ∈V U 是用戶對應的頂點,v i ∈V I 是物品i對應的頂點。如下圖是一個簡單的物品二分圖,其中圓形節點代表用戶,方形節點代表物品,用戶物品的直接連線代表用戶對物品產生過行為。比如下圖中的用戶A對物品a、b、d產生過行為。

度量圖中兩個頂點之間相關性的方法很多,但一般來說圖中頂點的相關性主要取決于下面3個因素:

而相關性高的一對頂點一般具有如下特征:

舉個例子,如下圖,用戶A和物品c、e沒有邊直連,但A可通過一條長度為3的路徑到達c,而Ae之間有兩條長度為3的路徑。那么A和e的相關性要高于頂點A和c,因而物品e在用戶A的推薦列表中應該排在物品c之前,因為Ae之間有兩條路徑。其中,(A,b,C,e)路徑經過的頂點的出度為(3,2,2,2),而 (A,d,D,e) 路徑經過了一個出度比較大的頂點D,所以 (A,d,D,e) 對頂點A與e之間相關性的貢獻要小于(A,b,C,e)。

基于上面3個主要因素,研究人員設計了很多計算圖中頂點相關性的方法,本節將介紹一種基于隨機游走的PersonalRank算法。

假設要給用戶u進行個性化推薦,可以從用戶u對應的節點 v u 開始在用戶物品二分圖上進行隨機游走。游走到任一節點時,首先按照概率α決定是繼續游走還是停止這次游走并從 v u 節點重新開始游走。若決定繼續游走,則從當前節點指向的節點中按照均勻分布隨機選擇一個節點作為游走下次經過的節點。這樣,經過很多次隨機游走后,每個物品被訪問到的概率會收斂到一個數。最終的推薦列表中物品的權重就是物品節點的訪問概率。

上述算法可以表示成下面的公式:

雖然通過隨機游走可以很好地在理論上解釋PersonalRank算法,但是該算法在時間復雜度上有明顯的缺點。因為在為每個用戶進行推薦時,都需要在整個用戶物品二分圖上進行迭代,知道所有頂點的PR值都收斂。這一過程的時間復雜度非常高,不僅無法在線進行實時推薦,離線計算也是非常耗時的。

有兩種方法可以解決上面PersonalRank時間復雜度高的問題:

(1)減少迭代次數,在收斂之前停止迭代。但是這樣會影響最終的精度。

(2)從矩陣論出發,重新涉及算法。另M為用戶物品二分圖的轉移概率矩陣,即:

網絡社交是當今社會非常重要甚至可以說是必不可少的社交方式,用戶在互聯網上的時間有相當大的一部分都用在了社交網絡上。

當前國外最著名的社交網站是Facebook和Twitter,國內的代表則是買粉絲/QQ和微博。這些社交網站可以分為兩類:

需要指出的是,任何一個社交網站都不是單純的社交圖譜或興趣圖譜。如QQ上有些興趣愛好群可以認識不同的陌生人,而微博中的好友也可以是現實中認識的。

社交網絡定義了用戶之間的聯系,因此可以用圖定義社交網絡。我們用圖 G(V,E,w) 定義一個社交網絡,其中V是頂點集合,每個頂點代表一個用戶,E是邊集合,如果用戶va和vb有社交網絡關系,那么就有一條邊 e(v a , v b ) 連接這兩個用戶,而 w(v a , v b )定義了邊的權重。一般來說,有三種不同的社交網絡數據:

和一般購物網站中的用戶活躍度分布和物品流行度分布類似,社交網絡中用戶的入度(in degree,表示有多少人關注)和出度(out degree,表示關注多少人)的分布也是滿足長尾分布的。即大部分人關注的人都很少,被關注很多的人也很少。

給定一個社交網絡和一份用戶行為數據集。其中社交網絡定義了用戶之間的好友關系,而用戶行為數據集定義了不同用戶的歷史行為和興趣數據。那么最簡單的算法就是給用戶推薦好友喜歡的物品集合。即用戶u對物品i的興趣 p ui 可以通過如下公式計算。

用戶u和用戶v的熟悉程度描述了用戶u和用戶在現實社會中的熟悉程度。一般來說,用戶更加相信自己熟悉的好友的推薦,因此我們需要考慮用戶之間的熟悉度。下面介紹3中衡量用戶熟悉程度的方法。

(1)對于用戶u和用戶v,可以使用共同好友比例來計算他們的相似度:

上式中 out(u) 可以理解為用戶u關注的用戶合集,因此 out(u) ∩ out(v) 定義了用戶u、v共同關注的用戶集合。

(2)使用被關注的用戶數量來計算用戶之間的相似度,只要將公式中的 out(u) 修改為 in(u):

in(u) 是指關注用戶u的集合。在無向社交網絡中,in(u)和out(u)是相同的,而在微博這種有向社交網絡中,這兩個集合的含義就不痛了。一般來說,本方法適合用來計算微博大V之間的相似度,因為大v往往被關注的人數比較多;而方法(1)適用于計算普通用戶之間的相似度,因為普通用戶往往關注行為比較豐富。

(3)除此之外,還可以定義第三種有向的相似度:這個相似度的含義是用戶u關注的用戶中,有多大比例也關注了用戶v:

這個相似度有一個缺點,就是在該相似度下所有人都和大v有很大的相似度,這是因為公式中的分母并沒有考慮 in(v) 的大小,所以可以把 in(v) 加入到上面公式的分母,來降低大v與其他用戶的相似度:

上面介紹了3種計算用戶之間相似度(或稱熟悉度)的計算方法。除了熟悉程度,還需要考慮用戶之間的興趣相似度。我們和父母很熟悉,但很多時候我們和父母的興趣確不相似,因此也不會喜歡他們喜歡的物品。因此,在度量用戶相似度時,還需要考慮興趣相似度,而興趣相似度可以通過和UserCF類似的方法度量,即如果兩個用戶喜歡的物品集合重合度很高,兩個用戶的興趣相似度很高。

最后,我們可以通過加權的形式將兩種權重合并起來,便得到了各個好有用戶的權重了。

有了權重,我們便可以針對用戶u挑選k個最相似的用戶,把他們購買過的物品中,u未購買過的物品推薦給用戶u即可。打分公式如下:

其中 w' 是合并后的權重,s買粉絲re是用戶v對物品的打分。

node2vec的整體思路分為兩個步驟:第一個步驟是隨機游走(random walk),即通過一定規則隨機抽取一些點的序列;第二個步驟是將點的序列輸入至word2vec模型從而得到每個點的embedding向量。

隨機游走在前面基于圖的模型中已經介紹過,其主要分為兩步:(1)選擇起始節點;(2)選擇下一節點。起始節點選擇有兩種方法:按一定規則抽取一定量的節點或者以圖中所有節點作為起始節點。一般來說會選擇后一種方法以保證所有節點都會被選取到。

在選擇下一節點方法上,最簡單的是按邊的權重來選擇,但在實際應用中需要通過廣度優先還是深度優先的方法來控制游走范圍。一般來說,深度優先發現能力更強,廣度優先更能使社區內(較相似)的節點出現在一個路徑里。

斯坦福大學Jure Leskovec教授給出了一種可以控制廣度優先或者深度優先的方法。

以上圖為例,假設第一步是從t隨機游走到v,這時候我們要確定下一步的鄰接節點。本例中,作者定義了p和q兩個參數變量來調節游走,首先計算其鄰居節點與上一節點t的距離d,根據下面的公式得到α:

一般從每個節點開始游走5~10次,步長則根據點的數量N游走根號N步。如此便可通過random walk生成點的序列樣本。

得到序列之后,便可以通過word2vec的方式訓練得到各個用戶的特征向量,通過余弦相似度便可以計算各個用戶的相似度了。有了相似度,便可以使用基于用戶的推薦算法了。

推薦系統需要根據用戶的歷史行為和興趣預測用戶未來的行為和興趣,因此大量的用戶行為數據就成為推薦系統的重要組成部分和先決條件。如何在沒有大量用戶數據的情況下設計個性化推薦系統并且讓用戶對推薦結果滿意從而愿意使用推薦系統,就是冷啟動問題。

冷啟動問題主要分為三類:

針對用戶冷啟動,下面給出一些簡要的方案:

(1)有效利用賬戶信息。利用用戶注冊時提供的年齡、性別等數據做粗粒度的個性化;

(2)利用用戶的社交網絡賬號登錄(需要用戶授權),導入用戶在社交網站上的好友信息,然后給用戶推薦其好友喜歡的物品;

(3)要求用戶在登錄時對一些物品進行反饋,手機用戶對這些物品的興趣信息,然后給用推薦那些和這些物品相似的物品;

(4)提供非個性化推薦。非個性化推薦的最簡單例子就是熱門排行榜,我們可以給用戶推薦熱門排行榜,然后等到用戶數據收集到一定的時候,在切換為個性化推薦。

對于物品冷啟動,可以利用新加入物品的內容信息,將它們推薦給喜歡過和他們相似的物品的用戶。

對于系統冷啟動,可以引入專家知識,通過一定高效的方式快速建立起物品的相關度表。

在上面介紹了一些推薦系統的基礎算法知識,這些算法大都是比較經典且現在還在使用的。但是需要注意的是,在實踐中,任何一種推薦算法都不是單獨使用的,而是將多種推薦算法結合起來,也就是混合推薦系統,但是在這里并不準備介紹,感興趣的可以查閱《推薦系統》或《推薦系統與深度學習》等書籍。此外,在推薦中非常重要的點擊率模型以及基于矩陣的一些排序算法在這里并沒有提及,感興趣的也可自行學習。

雖然現在用的很多算法都是基于深度學習的,但是這些經典算法能夠讓我們對推薦系統的發展有一個比較好的理解,同時,更重要的一點——“推陳出新”,只有掌握了這

很赞哦!(9)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:河北省张家口涿鹿县

工作室:小组

Email:[email protected]