您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

07 facebook大語言模型(大數據處理需要用到的九種編程語言)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-28 03:13:58【】7人已围观

简介映射到輸出或者說標簽的函數,具體來說就是將表征為多維向量,將表征為多維向量,然后讓進入一個模型進行一系列的運算后得到一個,通過不斷地比較和的值并調整模型的參數使模型的運算結果更為準確即更加貼近(過程有

映射到輸出或者說標簽 的函數 ,具體來說就是將 表征為多維向量 ,將 表征為多維向量 ,然后讓 進入一個模型進行一系列的運算后得到一個 ,通過不斷地比較 和 的值并調整模型的參數使模型的運算結果 更為準確即更加貼近 (過程有點類似于 “猜數字”游戲 ),從而最終得到一個近似函數 ,我們就可以用來代替未知的 用于預測未來的樣本 ,得到它對應的 。

我們可以發現,以上學習算法確實可以得到能夠解決問題的模型,然而局限之處在于它也只能做這個任務,即對輸入 預測 ,別的啥也干不了。

關于模型的選擇和取舍,工業界和學術界的標準其實差別很大。學術界里有的論文是開創性的,而許多論文其實都是在原來基礎上小修小改,將最近的較新的思想和算法一堆,實驗結果比原來指標高一點又是一篇文章,程序運行占用多大內存、跑了多長時間這些都不是主要因素,也就是一切向指標看齊。

而工業界則更加看重的是性價比,不同的公司、不同的部門、不同的階段其主要矛盾不同。比如說Facebook之前出的fastText,盡管模型很簡單,最終效果可能比不上一些其他復雜的模型,但是其訓練速度超快、基于CPU就可以,并且可以很方便地對模型進行壓縮。許多時候,一些指標高低差幾個點并沒有那么關鍵,模型大小、訓練時間、預測時間在很多時候是比較關鍵的因素,除非由于甲方或客戶不滿意,或者家大業大,有的是資源,那么這時候效果和指標又成為主要矛盾,這時的優化可能要以一定的時間和空間為代價。

原來的自然語言處理各任務基本上都構建在分詞的基礎之上,粗略來說有一個 語法 、 語義 到 語用 的遞進的過程。這一層一層的任務雖然耦合的很好,但是

這種Pipline將會導致下層的錯誤都將會被積累到上層,其直接影響就是越到上層其準確率越低,甚至低到慘不忍睹的程度。然而在表示學習,尤其是深度學習崛起以后,其強大的特征學習能力,使得現在的模型多為end-to-end模型,其結果是一方面可以使得相關人員擺脫繁瑣的特征工程,可以將特征提取與組合設計的工作交給神經網絡模型去隱形完成,大大解放了生產力;令一方面可以將模型視為整體的一部分,即它的輸入直接對應原始輸入,它的輸出直接是我們想要的結果,有點直達病灶的意思,擺脫了原來Pipline錯誤累積的困境。

不過我個人看來成也end-to-end,敗也end-to-end,雖然簡化了任務,但是有點太過開門見山,得到的模型一個個都是彼此孤立的,各做各的事情,然而從整體論的角度來看它們都是整個自然語言處理系統的一部分,一些特征本來是可以共享,一些結果是彼此相互依賴的。這也又涉及到參數共享、多任務學習等概念,不細表。由于神經網絡的可解釋性較差,這使得模型更加像一個黑盒,訓練調參的過程更像是在煉丹,因為誰也不知道具體能煉出個什么玩意兒。

如下圖很形象地詮釋了這一現狀:

下面就深度學習下的自然語言處理四大任務進行簡單對比(都是個人淺薄之見,難免有不足之處,還望海涵)。自然語言處理四大任務分別是:序列標注、文本分類、句子關系、文本生成。

序列標注任務的原始語料是一連串的句子,經過標注后的語料格式大概如下(以命名實體識別為例):

我們可以發現,每一行的格式都是一個字符以及它所對應的類別,如 B_{ type} 、 O ,那么對于每一個字符模型需要預測的類別數量總計為 2*len(types) + 1 ,其中2是指 BI 這種標注規范, len(types) 指類型種類的數量(如人名、地名、機構名共三種),1是指 O 。可以發現模型需要擬合的函數的值域還是很小的,即 O(len(types)) 。

文本分類任務的標注語料格式大概如下(以情感極性分析為例):

每一行的格式都包含原始文本以及它所對應的類別(或者說標簽),我們可以發現模型需要預測的類別數量總計為 len(types) ,即類型種類的數量(以新聞語料分類,如 娛樂 、 軍事 、 科技 、 體育 等),可以發現模型需要擬合的函數的值域也是較小的,即 O(len(types)) 。

句子關系任務的標注語料格式大致如下(以語句相似度為例):

每一行都是兩個句子以及它們的關系( 1 代表語義相同, 0 代表語義不同),我們可以發現模型需要預測的類別數量總計為 len(relations) ,即關系種類的數量,可以發現模型需要擬合的函數的值域也是較小的,即 O(len(relations)) 。

文本生成任務的標注語料格式大致如下(以機器翻譯為例):

我們可以發現每一行都是源語言句子以及目標語言的對應翻譯。雖然此時模型和序列標注模型一樣都需要對于單個樣本預測多次,但是序列標注模型需要預測的次數直接等于字符的數量,是確定的,但是文本生成任務模型需要預測的次數是不確定的,并且每次預測的值域都是目標語言所有word(或者character)所組成的整體集合,即 O(len(words)) ,其規模可能是十萬級或百萬級的。因此我們很容易發現文本生成任務的難度和復雜程度是要遠遠高于其他任務的。對話任務如生成式閑聊機器人更是如此。

可能是之前的AlphaGo過于吸引廣大群眾的眼球,做相關業務的公司吹的太厲害,以及“人工智能”、“深度學習”這幾個詞聽起來逼格滿滿,導致許多外行人認為現在的人工智能已經發展到很厲害的層次,并且可以做各種各樣的事情,似乎無所不能。但是內行人心里卻明白:“什么人工智能,人工智障吧”、“所謂人工智能,多是智能不夠,人工來湊”。外行人看不到深度模型算法的局限性,如許多模型的精度并不能達到那么高;也看不到深度模型算法的前提條件,如高質量、大規模的數據集,他們以為模型大約聰明到隨便喂點數據便成為終結者般的存在。這也就導致了他們剛開始預期很高,然而在投資或找到外包后發現效果遠遠不能達到預期,大失所望而潦草結束或撤資離場的局面。

如下一張圖大概有點這個意思:

統觀學術界與工業界,和計算機視覺領域相比,自然語言處理這種更深層次的、涉及到認知智能的領域的進展雖悠久但緩慢,并且許多任務目前為止距離真正商用還有很大的距離。然而正是科學史上如阿基米德、牛頓等偉大人物與其他相對無名之輩默默耕耘,前赴后繼,才使得如今之人類齊享先輩之成果,即所謂“前人栽樹后人乘涼”也。

我輩也無需悲觀,須戒驕戒躁,搞算法的就多己見、少盲從,少水論文;搞工程的就多積累經驗,提升實踐能力,多做高質量的項目。功夫不負有心人。

很赞哦!(32593)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:黑龙江省伊春红星区

工作室:小组

Email:[email protected]