您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

02 買粉絲買粉絲主體名稱修正和遷移的區別(請問醫療保險交費時買粉絲買粉絲提示你有多個人員編碼是啥意思?)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-07 03:21:37【】0人已围观

简介析實踐中,率先使用預訓練語言模型Bert,提高了情感分析的準確率。后來具有更小參數量的ALBERT的提出,使生產環境定制化情感模型成為可能。這里就主要介紹BERT以及ALBERT。BERTBERT(B

析實踐中,率先使用預訓練語言模型 Bert,提高了情感分析的準確率。后來具有更小參數量的ALBERT的提出,使生產環境定制化情感模型成為可能。這里就主要介紹BERT以及ALBERT。

BERT

BERT(Bidirectional En買粉絲der Representations from Transformerss)的全稱是基于 Transformer 的雙向編碼器表征,其中「雙向」表示模型在處理某一個詞時,它能同時利用前面的詞和后面的詞兩部分信息(如下圖所示)。

在BERT中, 主要是以兩種預訓練的方式來建立語言模型。

1.MLM(Masked LM)

MLM可以理解為完形填空,作者會隨機mask每一個句子中15%的詞,用其上下文來做預測,例如:my dog is hairy → my dog is [MASK]。此處將hairy進行了mask處理,然后采用非監督學習的方法預測mask位置的詞是什么,具體處理如下:

80%是采用[mask],my dog is hairy → my dog is [MASK]

10%是隨機取一個詞來代替mask的詞,my dog is hairy -> my dog is apple

10%保持不變,my dog is hairy -> my dog is hairy

之后讓模型預測和還原被遮蓋掉或替換掉的部分。

2.NSP(Next Sentence Prediction)

首先我們拿到屬于上下文的一對句子,也就是兩個句子,之后我們要在這兩段連續的句子里面加一些特殊 token: [cls] 上一句話,[sep] 下一句話. [sep]

也就是在句子開頭加一個 [cls],在兩句話之中和句末加 [sep],具體地就像下圖一樣:

Token Embeddings:是詞向量,第一個單詞是CLS標志,可以用于之后的分類任務。

Segment Embeddings:用來區別兩種句子,因為預訓練不光做LM還要做以兩個句子為輸入的分類任務。

Position Embeddings:讓BERT學習到輸入的順序屬性。

ALBERT

ALBERT的全稱是A Lite BERT for Self-supervised Learning of Language Representations(用于語言表征自監督學習的輕量級BERT),相對于Bert而言,在保證參數量小的情況下,也能保持較高的性能。當然同樣的模型還有 DistilBERT、TinyBERT。

1.ALBERT 和BERT的比較

下圖是BERT和ALBERT在訓練速度和性能上的整體比較:

ALBERT-xxlarge的表現完全超過BERT-large,同時參數量只有其占比的70%,但是Bert-large的速度要比ALBERT-xxlarge快三倍左右。

BERT-xlarge的性能相對于Bert-base是低效的,表明大參數模型相對于小參數模型更加難訓練。

2.ALBERT的目標

在基于預訓練語言模型表征時,增加模型大小一般可以提升模型在下游任務中的性能。但是通過增加模型大小會帶來以下問題:

內存問題

訓練時間會更長

模型退化

在將Bert-large的隱層單元數增加一倍, Bert-xlarge在基準測試上準確率顯著降低。

ALBERT核心目標就是解決上述問題, 下面就來介紹ALBERT在精簡參上的優化。

3.ALBERT模型優化

明確參數的分布,對于有效可靠的減少模型參數十分有幫助。ALBERT同樣也只使用到Transformer的En買粉絲der階段,如下圖所示:

圖中標明的藍色方框和紅色方框為主要的參數分布區域:

Attention feed-forward block(上圖中藍色實線區域):

參數大小: O(12 * L * H * H)

L:編碼器層數 eg:12

H:隱藏層大小 eg:768

參數量占比:80%

優化方法:采用參數共享機制

Token embedding projection block(上圖中紅色實線區域):

參數大小:(V * E)

V:詞表大小 eg:30000

E:詞嵌入大小 eg:768

參數量占比: 20%

優化方法:對Embedding進行因式分解

>E,所以ALBERT的詞向量的維度是小于en買粉絲der輸出值維度的。在NLP任務中,通常詞典都會很大,embedding matrix的大小是E×V。\n ALBERT采用了一種因式分解(Factorized embedding parameterization)的方法來降低參數量。首先把one-hot向量映射到一個低維度的空間,大小為E,然后再映射到一個高維度的空間,當E<

具體參數優化如下:

Factorized embedding parameterization(對Embedding因式分解)

ALBERT認為,token embedding是沒有上下文依賴的表述,而隱藏層的輸出值不僅包括了詞本身的意思還包括一些上下文信息,因此應該讓H>>E,所以ALBERT的詞向量的維度是小于en買粉絲der輸出值維度的。在NLP任務中,通常詞典都會很大,embedding matrix的大小是E×V。

ALBERT采用了一種因式分解(Factorized embedding parameterization)的方法來降低參數量。首先把one-hot向量映射到一個低維度的空間,大小為E,然后再映射到一個高維度的空間,當E<

可以看到,經過因式分解。參數量從O(V * H) 變為O(V*E + E*H),參數量將極大減小。如下圖所示:在H=768條件下,對比E=128和E=768,參數量減少17%,而整體性能下降0.6%。

在后續的實驗環境(所有的優化匯總后),對 embedding size 的大小進行評估,得出在 E=128時,性能達到最佳。

Cross-layer parameter sharing(跨層參數共享)

下圖是對BERT-Base Attention分布的可視化。對于一個隨機選擇的句子,我們可視化來自不同Layer的Head的Attention分布。可以看到,底層的Attention分布類似于頂層的Attention分布。這一事實表明在某種程度上,它們的功能是相似的。

Transformer中共享參數有多種方案,只共享feed-forward層,只共享attention層,ALBERT結合了上述兩種方案,feed-forward層與attention層都實現參數共享,也就是說共享en買粉絲der內的所有參數。但是需要主要的是,這只是減少了參數量,推理時間并沒有減少。如下圖所示:在采用 all-shared模式下,參數量減少70%,性能下降小于3%。

在經過上述的參數優化后,整體參數量有了極大的縮減,訓練速度也極大加快。后續作者又在模型變寬和模型變深上做了幾組實驗。如下:

模型變寬

當我們增加 H 大小時,性能會逐漸提高。在H=6144時,性能明顯下降。如下圖所示:

模型變深

在以ALBERT-large為基礎參數,設置不同的layer大小,發現layer=48的性能要差于layer=24的性能,如下圖所示:

一些實驗表示NSP(BERT-style)非但沒有作用,反而會對模型帶來一些損害。作者接著提出SOP(ALBERT-style)的優化模式。具體如下:

Inter-sentence 買粉絲herence loss(句子連貫性)

在ALBERT中,為了去除主題識別的影響,提出了一個新的任務 sentence-order prediction(SOP),SOP的正樣本和NSP的獲取方式是一樣的,負樣本把正樣本的順序反轉即可。SOP因為是在同一個文檔中選的,只關注句子的順序并沒有主題方面的影響。并且SOP能解決NSP的任務,但是NSP并不能解決SOP的任務,該任務的添加給最終的結果提升了一個點。

在后續的實驗中, ALBERT在訓練了100w步之后,模型依舊沒有過擬合,于是乎作者果斷移除了dropout,沒想到對下游任務的效果竟然有一定的提升。

當然作者對于增加訓練數據和訓練時長也做了詳盡的對比和測試,這里不再進行描述。

在最初的 ALBERT發布時,是只有中文的。感謝數據工程師徐亮以及所在的團隊,于 2019 年 10 月,開源了首個中文預訓練的中文版 ALBERT 模型。

項目地址:

買粉絲s://github.買粉絲/brightmart/albert_zh

四、

情感分析在輿情的應用實踐

業務調研

2019上半年,輿情服務的整體情感判定框架已經遷移到以Bert訓練為基礎的情感模型上,得出的測試指標 F1 值為 0.86,相較于舊版模型提升顯著; 但是雖然數據指標提升明顯,業務端實際感受卻并不明顯。因此我們對代表性客戶進行采樣調查,輔助我們找出生產指標和實驗室指標差異所在。同時針對上文提到的關于輿情業務中情感分析的痛點和難點,進行一次深度業務調研:

1.客戶情感滿意度調查

2.文本作用域(模型輸入文本選擇)調研

這里將文本作用域分為以下幾個層次,分布情況如下圖所示:

標題:正常文章的標題

全文: 標題和正文的統稱

情感摘要:依據客戶的輸入特征詞,從文章中抽取一段摘要;長度在256字符內。

關鍵詞周邊:只關注所配置關鍵詞周邊的文本作用域,一般是一句話。

主體(實體)詞周邊:依據客戶所配置的品牌詞、主體詞,選取對應的文本作用域。

3.情感判定因素

這里對判定因素做以下介紹:

自然語義:是指符合人們的情感判定標準,像 色情、暴力、違禁、邪教、反動等言論都是敏感信息的范疇。比如:"#28天斷食減肥[超話]#美柚說我還有4天就來姨媽了,所以是快要來姨媽了體重就掉的慢甚至不掉了嗎,心塞。" 屬于敏感。

主體(實體)情感:一般涉及到的是 人名、地名、機構名、團體名、產品名、品牌名、”我“、”作者“等; 如果監測主體為美柚,那么上述文本的情感傾向性就是非敏感。再舉例如下:”墨跡天氣又忘記簽到了,這個記性越來越差“,墨跡天氣是監測主體,那么屬于非敏感。

業務規則: 是指以一種可表示、可量化、可總結、可表達的形式總結知識和規則,已經不符合自然語義的理解范疇。

業務規則&自然語義:客戶的負面信息判定是結合業務規則,并且是符合自然語義

很赞哦!(58)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:山东济南商河县

工作室:小组

Email:[email protected]