您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

facebook時間序列預測(時間序列分析方法)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-08 03:57:23【】7人已围观

简介時間序列分析方法時間序列是指一組在連續時間上測得的數據,其在數學上的定義是一組向量x(t),t=0,1,2,3,...,其中t表示數據所在的時間點,x(t)是一組按時間順序(測得)排列的隨機變量。包含

時間序列分析方法

時間序列是指一組在連續時間上測得的數據,其在數學上的定義是一組向量x(t), t=0,1,2,3,...,其中t表示數據所在的時間點,x(t)是一組按時間順序(測得)排列的隨機變量。包含單個變量的時間序列稱為單變量時間序列,而包含多個變量的時間序列則稱為多變量。

時間序列在很多方面多有涉及到,如天氣預報,每天每個小時的氣溫,股票走勢等等,在商業方面有諸多應用,如:

下面我們將通過一個航班數據來說明如何使用已有的工具來進行時間序列數據預測。常用來處理時間序列的包有三個:

對于基于AR、MA的方法一般需要數據預處理,因此本文分為三部分:

通過簡單的初步處理以及可視化可以幫助我們有效快速的了解數據的分布(以及時間序列的趨勢)。

觀察數據的頻率直方圖以及密度分布圖以洞察數據結構,從下圖可以看出:

使用 statsmodels 對該時間序列進行分解,以了解該時間序列數據的各個部分,每個部分都代表著一種模式類別。借用 statsmodels 序列分解我們可以看到數據的主要趨勢成分、季節成分和殘差成分,這與我們上面的推測相符合。

如果一個時間序列的均值和方差隨著時間變化保持穩定,則可以說這個時間序列是穩定的。

大多數時間序列模型都是在平穩序列的前提下進行建模的。造成這種情況的主要原因是序列可以有許多種(復雜的)非平穩的方式,而平穩性只有一種,更加的易于分析,易于建模。

在直覺上,如果一段時間序列在某一段時間序列內具有特定的行為,那么將來很可能具有相同的行為。譬如已連續觀察一個星期都是六點出太陽,那么可以推測明天也是六點出太陽,誤差非常小。

而且,與非平穩序列相比,平穩序列相關的理論更加成熟且易于實現。

一般可以通過以下幾種方式來檢驗序列的平穩性:

如果時間序列是平穩性的,那么在ACF/PACF中觀測點數據與之前數據點的相關性會急劇下降。

下圖中的圓錐形陰影是置信區間,區間外的數據點說明其與觀測數據本身具有強烈的相關性,這種相關性并非來自于統計波動。

PACF在計算X(t)和X(t-h)的相關性的時候,挖空在(t-h,t)上所有數據點對X(t)的影響,反應的是X(t)和X(t-h)之間真實的相關性(直接相關性)。

從下圖可以看出,數據點的相關性并沒有急劇下降,因此該序列是非平穩的。

如果序列是平穩的,那么其滑動均值/方差會隨著時間的變化保持穩定。

但是從下圖我們可以看到,隨著時間的推移,均值呈現明顯的上升趨勢,而方差也呈現出波動式上升的趨勢,因此該序列是非平穩的。

一般來講p值小于0.05我們便認為其是顯著性的,可以拒絕零假設。但是這里的p值為0.99明顯是非顯著性的,因此接受零假設,該序列是非平穩的。

從上面的平穩性檢驗我們可以知道該時間序列為非平穩序列。此外,通過上面1.3部分的序列分解我們也可以看到,該序列可分解為3部分:

我們可以使用數據轉換來對那些較大的數據施加更大的懲罰,如取對數、開平方根、立方根、差分等,以達到序列平穩的目的。

滑動平均后數據失去了其原來的特點(波動式上升),這樣損失的信息過多,肯定是無法作為后續模型的輸入的。

差分是常用的將非平穩序列轉換平穩序列的方法。ARIMA中的 'I' 便是指的差分,因此ARIMA是可以對非平穩序列進行處理的,其相當于先將非平穩序列通過差分轉換為平穩序列再來使用ARMA進行建模。

一般差分是用某時刻數值減去上一時刻數值來得到新序列。但這里有一點區別,我們是使用當前時刻數值來減去其對應時刻的滑動均值。

我們來看看剛剛差分的結果怎么樣。

讓我們稍微總結下我們剛剛的步驟:

通過上面的3步我們成功的將一個非平穩序列轉換成了一個平穩序列。上面使用的是最簡單的滑動均值,下面我們試試指數滑動平均怎么樣。

上面是最常用的指數滑動平均的定義,但是pandas實現的指數滑動平均好像與這個有一點區別,詳細區別還得去查pandas文檔。

指數滑動均值的效果看起來也很差。我們使用差分+指數滑動平均再來試試吧。

在上面我們通過 取log+(指數)滑動平均+差分 已經成功將非平穩序列轉換為了平穩序列。

下面我們看看,轉換后的平穩序列的各個成分是什么樣的。不過這里我們使用的是最簡單的差分,當前時刻的值等于原始序列當前時刻的值減去原始序列中上一時刻的值,即: x'(t) = x(t) - x(t-1)。

看起來挺不錯,是個平穩序列的樣子。不過,還是檢驗一下吧。

可以看到,趨勢(Trend)部分已基本被去除,但是季節性(seasonal)部分還是很明顯,而ARIMA是無法對含有seasonal的序列進行建模分析的。

在一開始我們提到了3個包均可以對時間序列進行建模。

為了簡便,這里 pmdarima 和 statsmodels.tsa 直接使用最好的建模方法即SARIMA,該方法在ARIMA的基礎上添加了額外功能,可以擬合seasonal部分以及額外添加的數據。

在使用ARIMA(Autoregressive Integrated Moving Average)模型前,我們先簡單了解下這個模型。這個模型其實可以包括三部分,分別對應著三個參數(p, d, q):

因此ARIMA模型就是將AR和MA模型結合起來然后加上差分,克服了不能處理非平穩序列的問題。但是,需要注意的是,其仍然無法對seasonal進行擬合。

下面開始使用ARIMA來擬合數據。

(1) 先分訓練集和驗證集。需要注意的是這里使用的原始數據來進行建模而非轉換后的數據。

(2)ARIMA一階差分建模并預測

(3)對差分結果進行還原

先手動選擇幾組參數,然后參數搜索找到最佳值。需要注意的是,為了避免過擬合,這里的階數一般不太建議取太大。

可視化看看結果怎么樣吧。

(6)最后,我們還能對擬合好的模型進行診斷看看結果怎么樣。

我們主要關心的是確保模型的殘差(resial)部分互不相關,并且呈零均值正態分布。若季節性ARIMA(SARIMA)不滿足這些屬性,則表明它可以進一步改善。模型診斷根據下面的幾個方面來判斷殘差是否符合正態分布:

同樣的,為了方便,我們這里使用 pmdarima 中一個可以自動搜索最佳參數的方法 買粉絲_arima 來進行建模。

一般來說,在實際生活和生產環節中,除了季節項,趨勢項,剩余項之外,通常還有節假日的效應。所以,在prophet算法里面,作者同時考慮了以上四項,即:

上式中,

Prophet算法就是通過擬合這幾項,然后把它們累加起來得到時間序列的預測值。

Prophet提供了直觀且易于調整的參數:

Prophet對輸入數據有要求:

關于 Prophet 的使用例子可以參考 Prophet example notebooks

下面使用 Prophet 來進行處理數據。

參考:

Facebook 時間序列預測算法 Prophet 的研究

Prophet example notebooks

買粉絲_arima documentation for selecting best model

數據分析技術:時間序列分析的AR/MA/ARMA/ARIMA模型體系

買粉絲s://github.買粉絲/advaitsave/Introction-to-Time-Series-forecasting-Python

時間序列分析

My First Time Series Comp (Added Prophet)

Prophet官方文檔: 買粉絲s://facebookincubator.github.io

數據分析在商品全生命周期運營的落地

編輯導讀:在互聯網+引領的新時代,數據作為驅動的新能源,賦能商品運營,為商品運營帶去新動力

本文從對商品運營、數據分析在商品中的營銷落地展開陳述,并列舉相關分析方法,給讀者最真切的閱讀體驗,一起來看看吧

一、什么是商品運營商品運營是圍繞商品做全生命周期的管理,包括開發期、新品期、長大期、成熟期、以及衰退期

在這個過程中,總共分成三個業務單元:企劃、供應鏈、運營

「企劃」是根據市場需求、品牌調性、競品情況來制定新品,并通過包裝等營銷手段,引導顧客進行場景化消費

當然也是不可或缺的一環,比如配合運營觸達玩法,在發貨包裹中夾帶精準推薦商品卡片等

除此之外的都是「運營」范疇,比如在電商平臺配合平臺運營根據人群、場景進行選品,跟蹤、監控產品表現,及時調整產品定位并匹配安全庫存

接下來我們跟蹤一款產品的生命周期流程,看它是如何從誕生、到長大、到最后退出舞臺的

1

開發期——商品企劃對于品牌來說,在商品上市前,就需要洞察消費者需求、行業趨勢、競品動態、近期熱點等,結合品牌調性,綜合考慮后才能選好合適的商品

比如某電視劇開播就上熱搜,劇女主DIY手鏈在B站評論區好評如潮,此時作為珠寶公司的企劃判斷有較好市場,當即研判該電視劇目標人群符合品牌調性,則著手策劃電視劇同款新品

2

新品期——種草造勢在新品上市前就可以開始到小紅書等社區找達人KOL發內容進行種草,或者與跨界品牌聯名制造話題吸引關注

當然,根據品牌自身定位、資源,有不同打法:對于成熟品牌:可以利用頭部資源引爆話題營銷對于人氣新銳:可以借流量明星抓牢粉絲破圈而對于大部分的零資源品牌:同樣可以通過針對性內容提高種草力3

此時爆品的作用在于補充現金流,同時還能為店鋪帶來可觀的流量

當然不是說爆品就等于引流品,同樣也存在高價產品直接能為店鋪帶來利潤

該階段注意供應鏈庫存的支撐

4

成熟期——運營收割此時,除非是具有不可逾越門檻的商品,否則市場競品都會迅速跟上發布對標新品,品類競爭加劇,銷量放緩

為鞏固先發者優勢,品牌一般會在品類上橫縱延伸,衍生出同風格或主題系列

或者通過場景化營銷,引導顧客購買爆品的同時,搭配購買其他商品,實現連帶銷售,進一步挖掘剩余紅利

5

衰退期——清倉促銷可能因為廉價替代品的出現,可能因為IP熱度消逝,也可能因為內部結構調整,很多原因都會把商品帶到這一階段,曾經的爆品就不香了,產品逐漸被市場淘汰

擠壓在倉庫的庫存就成了成本費用,需要通過會員贈禮、折價促銷等方式進行清空,為下一個爆品騰出空間

二、數據分析在商品運營的落地前面是對單個商品以線性思維討論生命周期,但是在實際業務會更復雜

因為面對成百上千乃至上萬的商品,以及變化迅速的市場行情、競品招式,人工的思路已經無法滿足品牌發展需求,需要借助數據分析的工具,賦能商品運營

開篇時候說商品運營由企劃、供應鏈、運營組成,那數據分析同樣是與這三個業務單元配合開展

1

企劃新品開發其中的一個開端可以是由應對競品的策略帶來的

假設小米發布了可以短距離空間無線充電的手機,大受市場關注,則作為它競品的華為、OV等品牌為了保住市場會采取措施,發布同樣功能新品,或者發布劃時代意義的產品降維打擊

數據分析在這個過程中,則是通過競品分析來落地

通過此消彼長的市場份額變化、品類占比、價格趨勢、或多指標聚類等分析,洞察競品在產品上的策略趨勢,以提供應對建議

在天貓平臺,情報通工具可以獲取競品的單品銷售數據

通過對價格與品類交叉分析,發現A品牌的洗發水正往高端發力,B品牌則盤踞低端入門品類,若我司計劃開拓洗發水品類,可建議從中端市場介入

接下來再結合分析該市場價位、人群、競品等維度,給出更具體建議,例如:競品的爆款分析:是否要從產品風格突破、差異化突破、客單價突破;競爭對手定位:如何超越競爭對手,從營銷上突破;主推款的更換突破;店鋪促銷方案的突破;店鋪文案設計的突破;競爭對手推廣渠道:競品是通過什么渠道做的可以,付費、免費、站外、直播、活動

2

消費者洞察爆品都是洞察消費者心理的成功案例,比如瞄準年輕人“養生蹦迪”心理,推出“無糖、非碳酸飲料”的元氣森林,迅速搶占市場,一躍成為國內的網紅飲料品牌

做消費者洞察的渠道主要通過內容社區(如小紅書、微博)、APP聯盟(基于消費者手機裝的app來推斷用戶畫像)、自有數據的平臺(如天貓的數據銀行)等

這里介紹一種利用社交平臺洞察消費者的方法:SocialListening社會化聆聽,此方法與做用戶研究的VOCVoiceofCustimer用戶之聲相似,簡單來說就是基于社交媒體,通過文本挖掘方法洞察用戶的心理

它不僅用于產品企劃階段,在后續的營銷傳播也大有用處,比如對競品做聲量分析、了解網友對品牌的吐槽并推出解決方案等

知乎的蘇格蘭折耳喵大神詳細介紹了其中一個實踐方案,需要一個心理學方法和一個用戶動機分析工具實現:1)心理投射分析方法比如以前網易做的榮格心理學測試,就是一種心理投射:不同場景下用戶的選擇動作,代表著特定的心理暗示

每次的選擇都會生成一個標簽,最后再結合分析模型從這些用戶標簽信息中獲得情感洞察

2)Censydiam用戶動機分析模型馬斯洛需求理論是最著名的用戶需求分析模型,它將人們的需求分為生理需要、安全需要、社會需要、歸屬需要、自我實現五個層次

但是馬斯洛需求理論存在一個Bug:是否在經濟蕭條人們溫飽(生理需要)受到威脅時,高端品牌(歸屬需要)就無人問津了呢?答案:不是

例如美國的「口紅效應」,在大蕭條期間,非必需品的口紅銷量反而上升,因為它可以對處在困境中的人們起到安慰作用

為了解決馬斯洛需求理論的Bug,融合了多個心理學大佬理論的Censydiam用戶動機分析模型誕生:它把人們行為動機分成享樂/釋放、融合/溝通、服從/歸屬、舒適/安全、理性/控制、個性/獨特、能力/地位、活力/探索,八種

有了方法和工具后,我們來看下如何落地

比如到微博平臺洞察小米用戶畫像:找到最近期最活躍的小米官博認為官博下的粉絲為活躍忠粉,通過工具或爬蟲拿到他們的標簽,如旅游、美食、數碼等將標簽映射到Censydiam中,發現主要集中在“享樂/釋放”、“活力/探索”、“個性/獨特”根據享樂/釋放,小米提出“堪比XBOX游戲機”、“雙攝像頭”等新功能活力/探索,也是MIUI開發版的各種不同玩法、功能嘗鮮的印證個性/獨特,表示用戶追求個性化的用機體驗,能有自己DIY的空間3

運營打造爆品之測款在新品期,決定對商品長大期投入資源之前,需要讓操盤人對商品具有足夠的信心

此時,則需要通過測款來降低投入風險

測款的數據分析:針對收藏率、跳失率、停留時間、轉化率等關鍵維度進行一周的數據統計

其中需要回溯爆品的歷史數據,找到爆款的魔法數字,比如點擊收藏比峰值達到20%的比例,則認為該款極具爆品潛力

商品定位——聚類分群面對成百上千的商品,在資源有限的情況下,需要將商品進行分類,分配不同資源,以形成更具針對性的營銷策略、玩法

此時數據分析以指標聚類的形式落地,如帕累托分析、象限分析、波士頓矩陣等

1)單指標聚類——帕累托分析商品的帕累托分析是二八法則的升級應用,找到貢獻最多、而數量少的那部分商品作為核心利潤品,而其余商品如《長尾理論》那樣滿足細分人群需要

進而將商品劃分為不同策略產品,并采用不同的行動方案提高商品管理效率

如何計算:對評估指標(如銷售額、利潤等)進行排序;求出每個商品的累計數據;求出每個商品的累計數據占比;對每個商品的累計占比進行等級劃分如累計占比<=70%為A類款,累計銷售占比在70-90%之間的為B類款,累計銷售占比在90-100%之間的為C類款

在實際業務落地過程中,因為數據分析很多時候屬于后驗型分析,即是在分析已經發生的現狀

例如帕累托分析中,以銷售額作為評估指標對商品進行劃分會存在一個疑問:企業本來就對某款商品投入了大量資源或放到聚劃算引流,現在的分析說它屬于A類款,也只是企業操盤后的結果,不能對未來產生指導建議

2)多指標聚類——波士頓矩陣波士頓矩陣用業務增長率和市場份額兩個指標進行聚類,形成四種分類,并形成針對性建議:明星商品:高增長率,高市場份額

建議進一步擴大資源投入,擴大競爭優勢;金牛商品:低增長率,高市場份額

維持資源投入,保持市場份額;問題商品:高增長率,低市場份額

擴大投入,轉成明星商品;瘦狗商品:低增長率,低市場份額

處于衰退期,清倉處理

波士頓矩陣是從大局出發,制定商品的戰略發展策略

實際業務中沒有市場份額數據,可以用相對市場份額替代,即拿到4-5個競品數據后,作為大盤,看商品在其中的市場份額占比

用于聚類的指標是根據場景目標選的,通過不同組合滿足不同目的

例如業務場景是針對老客推薦商品,翻譯過來就是想找出老客偏好的商品做成頁面吸引回購,此時可以計算商品的老客TGI指標,與老客銷量做指標聚類,對于高老客TGI、高老客銷量的商品,就可以認為是老客偏好且有能力吸引回購的商品

此時,除了運營外,供應鏈也會針對商品所處的位置,采取相應的安全庫存策略,以確保爆款產品不會脫銷,滯銷產品庫存不會積壓

1)滯銷款根據二八原則,一個店鋪80%的利潤是由20%的商品帶來的

那剩余的80%里面,除了平平無奇的商品,必定還存在拖累銷售的滯銷款

除了前面講的指標聚類的方式做分類,現行業務以下方式進行判斷:打分排名:適用于所有商品,先基于多指標制定排行榜打分標準,在一定的時段后,針對所有商品進行打分,排名最后5%~10%為淘汰對象;銷售量/額:適用于單價低的商品,基于歷史數據,找出銷量/銷額的生存線魔法數字,如300個/月,未達此標準的淘汰處理;這個過程中,數據分析師要深入了解業務才能找到數據異動背后的原因

如某商品參加一次直播活動銷售數據很差,只通過數據很容易誤判它不適合直播

實際上調研后發現是直播當天,因為平臺運營設置錯誤,導致某平臺上售價更低,以至于顧客直播看到貨都跑去其他平臺購買

這時就要運用商品組合分析法,以下是對這種方法的解讀:也稱為購物籃分析

數據分析可以通過購物籃分析在此場景落地,分析不同商品組合的支持度、置信度、提升度,最終給出落地策略

在實際業務落地過程中,分析邏輯會更加豐富:不僅是單品之間的連帶,還可以是風格、材質、價格等之間的關聯不僅是單次訂單的組合,還可以是顧客歷史消費的商品組合在應用場景上,不僅是連帶推薦,還可以是關聯復購推薦目前最常見的關聯分析算法是Apriori,理解原理后,通過Python掉包或自行計算,皆可輕松實現

2)銷售預測銷售預測當商品進入到長大期或成熟期后,已經沉淀了足夠的數據可以對未來的銷售趨勢進行預測

但是事實上,大部分生意中,業績是干出來的,而不是預測出來的,那為什么還要做銷售預測呢?一方面是要幫助供應鏈在商品庫存管理方面更加高效,另一個方面,要做復雜算法模型的意義在于探索影響生意的因子與銷售之間的關系,幫助銷售目標的制定,或制定完成目標所需的要素條件

在落地的過程中,銷售預測模型不僅需要考慮周期性、區域性,還要把業務規律等因素量化進去,或者根據業務場景對模型預測結果進行補償

否則,高大上的機器學習模型,報告準確率為90%,然而一旦要預測到更細品類就直接涼了

因為對于供應鏈來說,預測整體銷售沒有多大意義,他們操作的顆粒度是到SKU,所以模型預測結果起碼得到二級分類能用才行

做銷售預測的方法比較常見的有:MA移動平均,是許多時間序列預測的基礎,通過設定時間窗口大小,計算平均值并推斷/預測下一個時間窗口數據;ARIMA模型,它由AR(AutoRegress自回歸模型)+I(Integrated差分)+MA(移動平均)組成,或者說ARIMA模型的擬合序列=周期序列+趨勢序列+殘差序列

看起來比較復雜但是不難理解,建議可以到知乎深入學習;Prophet模型,Facebook出的、比前兩者更復雜的時間序列預測模型,但是它反而因為融入了更多業務因素(如季節),更具備可解釋性,上手也不難;以及其他機器學習模型,如回歸算法、XGBoost等,但這些實操效果發現,要做到高準確率,需要花費更大的功夫,還有頭發的話就可以抓緊再學習

3)流量拆解預測銷售除了以上方法外,諸如天貓等自有流量體系的電商平臺還能根據流量的轉化公式計算預期銷售額

天貓618大促前,根據去年同期流量及近180天流量數據、轉化率、結合品牌私域用戶策略數據,可以得出618銷售目標,并給出各流量渠道的投入預算

對于品牌來說,費用的投入就有了預期收入作依據

4)庫存分析商品供應鏈另一大塊的分析則是庫存分析,分析指標包括:庫存量、庫銷比、周轉率、售罄率、齊碼率、品類占比等

三、結尾在互聯網+引領的新時代,數據作為驅動的新能源,同樣衍生出“數據分析+”

數據分析+用戶運營、數據分析+商品運營等,都是在用與傳統方法不一樣的數據思維來操盤,但這不意味著可以脫離業務只看數據

相反,本文多處都在強調融入業務做數據分析的重要性

如果你對商品運營有不同的看法,或者哪部分想深入了解,歡迎留言討論~

數據分析的點、線、面

在告別了人口紅利之后,對于成熟或平臺型產品而言,增長的核心不再是對增量用戶的擴張,而是對存量用戶的精細化運營,提升轉化效率及用戶價值挖掘,其中數據分析、運營扮演著一個重要的角色,但如何正確科學地分析數據并驅動業務改變和增長卻一直成為困擾,本文將梳理數據分析體系及數據運營一般方法論,幫助提升對數據分析的理解。

數據分析 是對產品運營有標準、統一、客觀且直觀的理解,通過數據應用的種種方法幫助提升對產品、用戶、趨勢、渠道、營銷的理解和洞察,發現問題與潛在機會,從而驅動產品改變與提升。

數據分析的價值并不在于數據本身,而在于隱藏在海量雜亂的數據背后的行為洞察與規律。

數據分析解決的是一個 決策路徑 的問題,不再是“我覺得式”的拍腦袋,而是還原事物本來“應該是”的客觀規律。

數據證明規律,規律帶來洞察,洞察改變產品。

最近幾年來火熱的以頭條、ins為代表的增長黑客理論,就是在基礎數據平臺及技術革新的基礎上,實現了對用戶和內容的精細化運營,從而達到增長,可以理解為是一種以數據為核心驅動力的產品哲學。

在互聯網發展的歷史中,沉淀下來的數據分析方法論有很多,建立在深淺不一的數學統計學原理之上,下文會介紹一些數據分析體系規劃的一般方法論及案例,從“點、線、面”三個維度依次講述數據分析的三個層級。

概念:指標、維度與多維分析

指標與維度,是在了解數據分析之前必須要理解的概念,也是最困擾的問題之一:

在統計學中,根據性質可以將指標分為絕對指標和相對指標:

相對指標是由絕對指標通過計算得來,可以說絕對指標是相對指標的基礎,而相對指標常常蘊含著更大的信息量,這也是為什么在分析過程中,需要構建相對指標來輔助分析的原因。

單一的指標沒有意義,至少需要有一個維度以上的對比才能產生價值,且只有放在同一個維度下對比才有意義,對比的維度根據觀察粒度可以分為宏觀、中觀、微觀三個視角:

多維分析: 下面以消息量為例,演示多維分析的遞進式下鉆分析

數據分析按照時間邏輯可分為原因分析、現狀分析及預測分析,分別反映過去、現狀及未來的產品情況。由此,我們得出了數據分析的三個階段,分別是描述性、驗證性及探索性分析:

AB測試 :AB測試是通過對n組相似用戶群體,分別下發不同版本的配置/UI/文案,通過收集數據反饋,來做出最優決策一種在線測試方法,是目前主流的科學決策方法,但需要注意,AB測試不能度量長期目標。

魔法數字: 當新用戶在一定時間里、以某種頻率使用了某個功能時,會有更大的可能留下來,成為忠誠用戶,而一旦發現了這樣的功能,反過來引導用戶多次使用,達到一定次數,就可能為產品帶來更高的留存,這些能夠大大提高用戶留存的神奇數字。

相關性與因果性 :忽略了外部的關鍵因素,會得出荒謬的因果結論。A和B的數據高度相關,有人就片面認為A影響了B,或者B影響了A;但是,有時候真實原因是C同時影響了A和B,而C被忽略掉了。

聚類分析 :“物以類聚,人以群分”,聚類是通過統計學原理計算樣本之間的距離從而達到無監督分類的一種多元分析方法,其優勢在于不需要加入人為的干預就能達到分類預測的效果,是典型的機器學習的應用場景。

場景分析 :場景定位是獲取產品洞察及挖掘用戶需求重要的手段,通常通過文本挖掘、歸納總結、抽樣調查等方式細分場景,同時對不同場景進行分析及深耕,挖掘用戶潛在需求。

在維度和指標的基礎上進行多維分析后,我們獲取了對產品和用戶更好的理解,在此基礎上,我們按照產品邏輯進行模塊、分析維度及指標集的歸納整理,使之成為一種有機、條理化的體系,就是我們所說的數據指標體系。

在完成數據指標體系搭建后,一個棘手的問題來了,對于每天產生的數以千計的數據指標來說,如何做到日常的異動監控?

這個問題可以簡化成一個時間序列分析問題,其核心在于通過歷史數據來預測未來的發展趨勢,通過模型預測解決異動監控的問題,我們引入了Facebook開源的時間序列框架Prophet,其原理在于將一個時間序列,拆解為趨勢、周期性、季節性、節假日及隨機性五個模塊:

對于一個成熟的產品來說,產品功能、產品設計、交互方式及營銷方案都是多種多樣的,同時用戶需求和偏好也是多樣化的,兩者隨著產品發展階段會出現不同程度的矛盾,精細化運營就是通過各種手段進行用戶分群,對不同需求和偏好的用戶群進行差異化的產品側運營。

同時,在產品發展的各個階段,我們需要對用戶進行拉新、促活、留存的運營,但由于資源的有限性,需要對不同的用戶群體實行有針對性的運營策略,從而實現投入產出比的最大化。因此,準確且全面的用戶分群顯得尤為重要。

RFM用戶價值模型:由三個神奇的要素構成(R、F、M),通過這三個要素的有機結合可以幫助我們更為客觀、全面地看待用戶價值:

個性化推薦系統

個性化推薦是精細化運營的一種,如果分群是對用戶群的精細化運營,那么推薦系統可以理解為對單個用戶粒度的精細化運營,通常是我們數據應用的加工程度和工藝達到最大化的一層,也是數據對產品所能產生的最直接的影響與變現。

推薦系統是基于用戶的歷史行為、社交關系、興趣點、所處上下文環境等信息,去判斷用戶當前需要或感興趣的物品/服務,或幫助用戶進行決策的一類應用。

搜索與推薦本質上都是幫助用戶快速 發現有用信息的工具 ,其輸出的結果常常是相同的,但同樣是建立用戶與信息之間的連接,兩者在結構上有天然的差別,其差別主要源于在用戶動機及信息流動機制上。

推薦系統產生的原因有很多,其核心原因在于 信息過載、用戶偏好、無明確需求 。推薦系統的任務和作用就在于在于 連接 ,縮短用戶與有價值信息之間的路徑,讓用戶離偏好的東西更近一步,提升產品體驗與轉化效率。

推薦系統的組成會根據不同的業務場景而有所不同,但通常會包含以下五個通用模塊,我們暫且稱之為“ AFRRF ”,五個模塊環環相扣,互為依賴:

一個好的推薦系統,需要平衡和連接用戶、內容和產品三方的需求,在提供準確推薦結果的前提下,提供信息 活水流動 的機制,其中 長尾信息 的挖掘是至關重要的一部分,系統化的設計保持生態系統處于自我迭代發展的自循環機制,也就是我們說的產品的可持續發展。

在當前所處的大數據趨勢與環境下,無論是數據規模還是數據加工程度和工藝都正在得到了持續且長足的發展,數據采集、分析、挖掘對于產品的發展已經變得越來越重要,可以說對數據的理解程度決定了對用戶和產品的洞察能力,也決定了產品能否持續迭代優化,提升用戶體驗。

人工智能,機器學習和深度學習的區別是什么

為了搞清三者關系,我們來看一張圖:

如圖所示:人工智能最大,此概念也最先問世;然后是機器學習,出現的稍晚;最后才是深度學習。

從低潮到繁榮

自從 1956 年計算機科學家們在達特茅斯會議(Dartmouth Conferences)上確認人工智能這個術語以來,人們就不乏關于人工智能奇思妙想,研究人員也在不遺余力地研究。在此后的幾十年間,人工智能先是被捧為人類文明光明未來的鑰匙,后又被當作過于自大的異想天開而拋棄。

但是在過去幾年中,人工智能出現了爆炸式的發展,尤其是 2015 年之后。大部分原因,要歸功于圖形處理器(GPU)的廣泛應用,使得并行處理更快、更便宜、更強大。另外,人工智能的發展還得益于幾乎無限的存儲空間和海量數據的出現(大數據運動):圖像、文本、交易數據、地圖數據,應有盡有。

下面我們從發展的歷程中來一一展開對人工智能、機器學習和深度學習的深度學習。

我們力所能及的,算是“弱人工智能”(Narrow AI):執行特定任務的水平與人類相當,甚至超越人類的技術。現實中有很多弱人工智能的例子。這些技術有人類智能的一面。但是它們是如何做到的?智能來自哪里?這就涉及到下一個同心圓:機器學習。

機器學習

機器學習是實現人工智能的一種方法。機器學習的概念來自早期的人工智能研究者,已經研究出的算法包括決策樹學習、歸納邏輯編程、增強學習和貝葉斯網絡等。簡單來說,機器學習就是使用算法分析數據,從中學習并做出推斷或預測。與傳統的使用特定指令集手寫軟件不同,我們使用大量數據和算法來“訓練”機器,由此帶來機器學習如何完成任務。

許多年來,計算機視覺一直是機器學習最佳的領用領域之一,盡管還需要大量的手動編碼才能完成任務。研究者會手動編寫一些分類器(classifier),如邊緣檢測篩選器,幫助程序辨別物體的邊界;圖形檢測分類器,判斷物體是否有八個面;以及識別“S-T-O-P”的分類器。在這些手動編寫的分類器的基礎上,他們再開發用于理解圖像的算法,并學習如何判斷是否有停止標志。

但是由于計算機視覺和圖像檢測技術的滯后,經常容易出錯。

深度學習

深度學習是實現機器學習的一種技術。早期機器學習研究者中還開發了一種叫人工神經網絡的算法,但是發明之后數十年都默默無聞。神經網絡是受人類大腦的啟發而來的:神經元之間的相互連接關系。但是,人類大腦中的神經元可以與特定范圍內的任意神經元連接,而人工神經網絡中數據傳播要經歷不同的層,傳播方向也不同。

舉個例子,你可以將一張圖片切分為小塊,然后輸入到神經網絡的第一層中。在第一層中做初步計算,然后神經元將數據傳至第二層。由第二層神經元執行任務,依次類推,直到最后一層,然后輸出最終的結果。

每個神經元都會給其輸入指定一個權重:相對于執行的任務該神經元的正確和錯誤程度。最終的輸出由這些權重共同決定。因此,我們再來看看上面提到的停止標志示例。一張停止標志圖像的屬性,被一一細分,然后被神經元“檢查”:形狀、顏色、字符、標志大小和是否運動。神經網絡的任務是判斷這是否是一個停止標志。它將給出一個“概率向量”(probability vector),這其實是基于權重做出的猜測結果。在本文的示例中,系統可能會有 86% 的把握認定圖像是一個停止標志,7% 的把握認為是一個限速標志,等等。網絡架構然后會告知神經網絡其判斷是否正確。

不過,問題在于即使是最基礎的神經網絡也要耗費巨大的計算資源,因此當時不算是一個可行的方法。不過,以多倫多大學 Geoffrey Hinton 教授為首的一小批狂熱研究者們堅持采用這種方法,最終讓超級計算機能夠并行執行該算法,并證明該算法的作用。如果我們回到停止標志那個例子,很有可能神經網絡受訓練的影響,會經常給出錯誤的答案。這說明還需要不斷的訓練。它需要成千上萬張圖片,甚至數百萬張圖片來訓練,直到神經元輸入的權重調整到非常精確,幾乎每次都能夠給出正確答案。不過值得慶幸的是Facebook 利用神經網絡記住了你母親的面孔;吳恩達 2012 年在谷歌實現了可以識別貓的神經網絡。

如今,在某些情況下,通過深度學習訓練過的機器在圖像識別上表現優于人類,這包括找貓、識別血液中的癌癥跡象等。谷歌的 AlphaGo 學會了圍棋,并為比賽進行了大量的訓練:不斷的和自己比賽。

總結

人工智能的根本在于智能,而機器學習則是部署支持人工智能的計算方法。簡單的將,人工智能是科學,機器學習是讓機器變得更加智能的算法,機器學習在某種程度上成就了人工智能。

本文作者 Michael Copeland 曾是 WIRED 編輯,現在是硅谷知名投資機構 Andreessen Horowitz 的合伙人。

人工智能,機器學習與深度學習,到底是什么關系

一、人工智能

人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。

人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括語音識別、圖像識別、機器人、自然語言處理、智能搜索和專家系統等。

人工智能可以對人的意識、思維的信息過程的模擬。人工智能不是人的智能,但能像人那樣思考、也有可能超過人的智能。

二、數據挖掘

數據挖掘(Data Mining),顧名思義就是從海量數據中“挖掘”隱藏信息,按照教科書的說法,這里的數據是“大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據”,信息指的是“隱含的、規律性的、人們事先未知的、但又是潛在有用的并且最終可理解的信息和知識”。在商業環境中,企業希望讓存放在數據庫中的數據能“說話”,支持決策。所以,數據挖掘更偏向應用。

數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

三、機器學習

機器學習(Machine Learning)是指用某些算法指導計算機利用已知數據得出適當的模型,并利用此模型對新的情境給出判斷的過程。

機器學習的思想并不復雜,它僅僅是對人類生活中學習過程的一個模擬。而在這整個過程中,最關鍵的是數據。

任何通過數據訓練的學習算法的相關研究都屬于機器學習,包括很多已經發展多年的技術,比如線性回歸(Linear Regression)、K均值(K-means,基于原型的目標函數聚類方法)、決策樹(Decision Trees,運用概率分析的一種圖解法)、隨機森林(Random Forest,運用概率分析的一種圖解法)、PCA(Principal Component Analysis,主成分分析)、SVM(Support Vector Machine,支持向量機)以及ANN(Artificial Neural Networks,人工神經網絡)。

四、深度學習

深度學習(Deep Learning)的概念源于人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布式特征表示。

深度學習是機器學習研究中的一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。

五、人工智能與機器學習、深度學習的關系

嚴格意義上說,人工智能和機器學習沒有直接關系,只不過目前機器學習的方法被大量的應用于解決人工智能的問題而已。目前機器學習是人工智能的一種實現方式,也是最重要的實現方式。

早期的機器學習實際上是屬于統計學,而非計算機科學的;而二十世紀九十年代之前的經典人工智能跟機器學習也沒有關系。所以今天的AI和ML有很大的重疊,但并沒有嚴格的從屬關系。

不過如果僅就計算機系內部來說,ML是屬于AI的。AI今天已經變成了一個很泛泛的學科了。

深度學習是機器學習現在比較火的一個方向,其本身是神經網絡算法的衍生,在圖像、語音等富媒體的分類和識別上取得了非常好的效果。

所以,如果把人工智能與機器學習當成兩個學科來看,三者關系如下圖所示:

如果把深度學習當成人工智能的一個子學科來看,三者關系如下圖所示

六、數據挖掘與機器學習的關系

數據挖掘主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。

機器學習是數據挖掘的一種重要方法,但機器學習是另一門學科,并不從屬于數據挖掘,二者相輔相成。

fbprophet模型如何下載

沒有。去年Facebook開源了一套時序預測工具叫做Prophet。Prophet是一個預測時間序列數

據的模型。 它基于一個自加性模型,用來擬合年、周、季節以及假期等非線性趨勢。 它在至少有一年歷史數據的日常周期性數據,效果最好。 Prophet對缺失值,趨勢的轉變和大量的異常值是有極強的魯棒性

很赞哦!(5)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:重庆奉节奉节县

工作室:小组

Email:[email protected]