您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

facebook大語言模型(《預訓練周刊》第33期:預訓練語言模型的高效分層域適應)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-13 09:09:06【】2人已围观

简介《預訓練周刊》第33期:預訓練語言模型的高效分層域適應關于周刊本期周刊,我們選擇了9篇預訓練相關的論文,涉及詞匯遷移、常識問答、多模態訓練、層次訓練、對比學習、圖像分割、圖文模型、蛋白質作用和免疫特征

《預訓練周刊》第33期:預訓練語言模型的高效分層域適應

關于周刊

本期周刊,我們選擇了9篇預訓練相關的論文,涉及詞匯遷移、常識問答、多模態訓練、層次訓練、對比學習、圖像分割、圖文模型、蛋白質作用和免疫特征表示的 探索 。此外,在研究動態方面,我們選擇了2篇預訓練資訊,將介紹大模型競爭和視覺算法年度回顧方面的一些最新內容。最后,在資源推薦方面,我們選擇了1篇預訓練資源,將介紹跨語言摘要方面的一些最新內容。

本期貢獻者:申德周 翟珂 吳新剛

論文推薦

標題:俄羅斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer(微調Transformer:詞匯遷移)

簡介:本文討論了巨大型預訓練模型為下游任務微調而引發遷移學習的 探索 之一:詞匯遷移。自然語言處理領域最新進展中Transformer已成為絕對主流。這些模型的大多數實際自然語言處理應用通常是通過遷移學習實現的。本文研究了用于微調的語料庫特定標記化是否會提高模型的最終性能。作者通過一系列的詞匯表優化和遷移實驗,證明了這種詞匯表優化和遷移策略可以提高模型的性能。作者稱之為:在遷移學習領域開創了詞匯遷移的這一方向。

論文地址:「鏈接」

標題:加州大學 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形轉換和一致性優化的小樣本常識問答)

簡介:本文在常識問答(CQA)方向研究預訓練語言模型中的知識提取。作者將重點放在更好地利用預訓練語言模型中存儲的知識。雖然研究人員發現,通過讓預先訓練的語言模型填充精心設計的關系提取和文本分類提示的空白,可以提取嵌入在預訓練的語言模型中的知識,但目前尚不清楚作者是否可以在CQA中采用這種范式,其中輸入和輸出的形式更加靈活。為此,作者研究了四種可以將自然問題翻譯成完形填空式句子的翻譯方法,以更好地從語言模型中獲取常識性知識,包括基于句法的模型、無監督神經模型和兩種監督神經模型。此外,為結合不同的翻譯方法,作者提議鼓勵使用未標記數據對不同翻譯問題進行模型一致性的預測。實驗證明了作者的方法在三個CQA數據集上的有效性。

論文地址:「鏈接」

標題:威斯康星大學、微軟等 | RegionCLIP: Region-based Language-Image Pretraining(基于區域的語言圖像預訓練)

簡介:本文研究了基于識別圖像區域的語言圖像預訓練模型。業界使用“圖像-文本對”的對比語言圖像預訓練 (CLIP)在零樣本和遷移學習中的圖像分類方面取得了令人印象深刻的結果。然而,作者表明直接應用此類模型來識別圖像區域以進行對象檢測會導致性能不佳,因為存在域偏移:CLIP 被訓練以將圖像作為一個整體與文本描述進行匹配,而沒有捕獲圖像之間的細粒度對齊區域和文本跨度。為了緩解這個問題,作者提出了一種稱為 RegionCLIP 的新方法,該方法顯著擴展了 CLIP 以學習區域級視覺表示,從而實現圖像區域和文本概念之間的細粒度對齊。作者的方法利用 CLIP 模型將圖像區域與模板標題匹配,然后預訓練作者的模型以在特征空間中對齊這些區域-文本對。當將作者的預訓練模型轉移到開放詞匯對象檢測任務時,作者的方法在 COCO 和 LVIS 數據集上的新類別分別顯著優于現有技術 3.8 AP50 和 2.2 AP。

論文地址:「鏈接」

代碼地址:買粉絲s://github.買粉絲/microsoft/RegionCLIP

標題:艾倫AI研究所、慕尼黑大學 | Efficient Hierarchical Domain Adaptation for Pretrained Language Models(預訓練語言模型的高效分層域適應)

簡介:本文研究了以分層樹結構的域表示實現預訓練語言模型的分層。生成式的語言模型,在不同的通用領域語料庫上進行訓練,然而這就限制了它們對更窄領域的適用性,之前的工作表明,持續的領域內訓練可以提供進一步的收益。在本文中,作者介紹了一種使用計算效率高的適配器方法將域適應擴展到許多不同域的方法。作者的方法基于對文本域部分重疊的觀察,作者將域表示為分層樹結構,其中樹中的每個節點都與一組適配器權重相關聯。當與凍結的預訓練語言模型相結合時,這種方法可以實現相關領域之間的參數共享,同時避免不相關領域之間的負面干擾。該方法很高效:對于 D 個域,計算成本為 O(log(D))。GPT-2 的實驗結果和 C4 中 100 個最具代表性的網站中的大部分顯示了域內的全面改進。作者還為保留域提供了一種推理時間算法,并表明對通過樹的多條路徑進行平均可以進一步提高泛化效果,同時僅增加推理的邊際成本。

論文地址:「鏈接」

標題:谷歌、亞馬遜等 | Supervised Graph Contrastive Pretraining for Text Classification(用于文本分類的有監督圖對比預訓練)

簡介:本文介紹了用于文本分類的對比預訓練技術。但是,通常可以使用來自與當前任務共享標簽語義的相關任務的標記數據。作者假設有效地使用這些標記數據可以更好地概括當前任務。在本文中,作者提出了一種通過基于圖的監督對比學習方法有效利用來自相關任務的標記數據的新方法。作者通過將監督信息從示例外推到令牌來制定令牌圖。作者的公式產生了一個嵌入空間,其中屬于同一類的高/低概率標記彼此靠近/遠離。作者還提出了詳細的理論見解、以作為本研究方法的驅動。基于作者采用的數據集,實驗表明:作者的方法優于預訓練方案 2.5 % 、并且基于示例級對比學習的公式提升約 1.8 %。此外,在零樣本場景中實驗表明跨域有效性平均提升3.91%。最后,作者還證明了該方法可以用作知識蒸餾設置中的噪聲教師模型、約平均提升4.57% 。

論文地址:「鏈接」

標題:百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation(ERNIE-ViLG:雙向視覺語言生成的統一生成式預訓練)

簡介:視覺語言預訓練模型極大地提高了圖像-文本生成任務的性能,但用于文本-圖像生成任務的大規模預訓練模型仍在研究中。本文提出了ERNIE-ViLG,一個統一的生成式預訓練框架,基于Transformer模型并將圖像生成和文本生成都表述為以文本/圖像輸入為條件的自回歸生成任務。雙向的圖像-文本生成模型簡化了跨視覺和語言的語義對接。對于文本到圖像的生成過程,作者進一步提出了一種端到端的訓練方法來共同學習視覺序列生成器和圖像重建器。為了 探索 雙向文本-圖像生成的大規模預訓練的前景,本文在1.45億圖像-中文文本對的大規模數據集上訓練了一個100億參數的模型,該模型在文本-圖像和圖像-文本任務上都取得了最先進的性能。

論文地址:「鏈接」

標題:華中科大、西安交大、微軟 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model(用預訓練視覺語言模型進行零樣本語義分割的基線)

簡介:通過視覺語言預訓練的零樣本圖像分類已經漸趨成熟,然而在更廣泛的視覺問題上如物體檢測和語義分割還需研究。本文在預訓練的視覺語言模型CLIP上構建零樣本語義分割基線。該問題難點在于語義分割和CLIP模型在不同的視覺顆粒度上執行,語義分割在像素上處理,而CLIP在圖像上執行。為了彌補處理粒度上的差異,本文沒有使用普遍的基于FCN的單階段框架,而使用一個兩階段的語義分割框架,第一階段提取泛化掩碼,第二階段利用基于圖像的CLIP模型,對第一階段產生的掩碼圖像作物進行零樣本分類。本文的實驗結果表明,這個簡單的框架在很大程度上超過了目前的先進技術。憑借其簡單性和強大的性能,本文希望這個框架能夠作為基線以助未來的研究。

論文地址:「鏈接」

標題:中山大學 | AlphaFold2-aware protein-DNA binding site prediction using graph transformer(使用圖Transformer進行結合AlphaFold2的蛋白質-DNA結合位點預測)

簡介:蛋白質與DNA的相互作用在生物系統中起著至關重要的作用,確定蛋白質與DNA的結合位點是對各種生物活動,如轉錄和修復,進行機理理解和設計新型藥物的第一步。現有的基于序列的方法只考慮了順序相鄰的上下文特征,這對捕捉空間信息是有限的。對此本文提出GraphSite,作者將結合位點預測問題轉化為圖節點分類任務,并采用基于Transformer的預訓練模型,通過AlphaFold2預測結構,將蛋白質結構信息、AlphaFold2中Evoformer的表征和序列進化信息考慮在內實現DNA結合殘基的識別。GraphSite大大改善了基于序列和結構的最新方法,并且在181種蛋白質的獨立測試集上得到進一步證實,在AUPR和MCC上分別超過了最先進的基于結構的方法16.4%和11.2%。

論文地址:「鏈接」

標題:耶魯 | Pipeline for retrieval of COVID-19 immune signatures(檢索COVID-19免疫特征的流程)

簡介:隨著生物醫學文獻出版速度的加快,檢索其中的特定的科學信息變得更有意義。在新冠流行的大背景下,有效地檢索病毒免疫特征,即生物標志物,可以幫助了解不同的SARS-CoV-2感染的免疫反應機制。對此,本文構建了一個系統的流程來識別和提取結構化的COVID-19免疫特征。具體而言,作者使用基于SPECTER預訓練的生物文本嵌入,配合SVM分類器來自動識別含有免疫特征的論文,并進一步對這些論文進行半自動查詢流程構建,檢索特征信息。此外,基于預訓練嵌入的流程也可確定免疫特征的類型,比如基因表達與其他類型的分析。通過這種方法,部分自動化的文獻挖掘可以幫助快速創建半結構化的知識庫,用于自動分析新出現的 健康 威脅。

論文地址:「鏈接」

資源推薦

標題:孟加拉國工程技術大學、加州大學洛杉磯分校等 | CrossSum:超越 1500 多個語言對的以英語為中心的跨語言抽象文本摘要數據集

簡介:作者提供了 CrossSum:一個包含 165 萬個跨語言文章摘要樣本、包含 45 種語言的 1500 多個語言對的大規模數據集。基于多語言 XL-Sum 數據集,并使用與語言無關的表示模型通過跨語言檢索來對齊以不同語言編寫的相同文章,作者提出了一種多階段數據采樣算法并微調多語言預訓練模型mT5。實驗結果表明在 CrossSum 上微調的模型優于摘要+翻譯基線。

論文地址:「鏈接」

資源下載:買粉絲s://github.買粉絲/csebuetnlp/CrossSum

【關于轉載】本文轉載于買粉絲“智源社區”,僅用于學術分享,有任何問題請與我們聯系:report@aminer.買粉絲

大數據處理需要用到的九種編程語言

大數據處理需要用到的九種編程語言

隨著大數據的熱潮不斷升溫,幾乎各個領域都有洪水傾瀉般的信息涌來,面對用戶成千上萬的瀏覽記錄、記錄行為數據,如果就單純的Excel來進行數據處理是遠遠不能滿足的。但如果只用一些操作軟件來分析,而不怎么如何用邏輯數據來分析的話,那也只是簡單的數據處理。

替代性很高的工作,而無法深入規劃策略的核心。

當然,基本功是最不可忽略的環節,想要成為數據科學家,對于這幾個程序你應該要有一定的認識:

R

若要列出所有程序語言,你能忘記其他的沒關系,但最不能忘的就是R。從1997年悄悄地出現,最大的優勢就是它免費,為昂貴的統計軟件像是Matlab或SAS的另一種選擇。

但是在過去幾年來,它的身價大翻轉,變成了資料科學界眼中的寶。不只是木訥的統計學家熟知它,包括WallStreet交易員、生物學家,以及硅谷開發者,他們都相當熟悉R。多元化的公司像是Google、Facebook、美國銀行以及NewYorkTimes通通都使用R,它的商業效用持續提高。

R的好處在于它簡單易上手,透過R,你可以從復雜的數據集中篩選你要的數據,從復雜的模型函數中操作數據,建立井然有序的圖表來呈現數字,這些都只需要幾行程序代碼就可以了,打個比方,它就像是好動版本的Excel。

R最棒的資產就是活躍的動態系統,R社群持續地增加新的軟件包,還有以內建豐富的功能集為特點。目前估計已有超過200萬人使用R,最近的調查顯示,R在數據科學界里,到目前為止最受歡迎的語言,占了回復者的61%(緊追在后的是39%的Python)。

它也吸引了WallStreet的注目。傳統而言,證券分析師在Excel檔從白天看到晚上,但現在R在財務建模的使用率逐漸增加,特別是可視化工具,美國銀行的副總裁NiallO’Conno說,「R讓我們俗氣的表格變得突出」。

在數據建模上,它正在往逐漸成熟的專業語言邁進,雖然R仍受限于當公司需要制造大規模的產品時,而有的人說他被其他語言篡奪地位了。

“R更有用的是在畫圖,而不是建模。”頂尖數據分析公司Metamarkets的CEO,MichaelDris買粉絲ll表示,

“你不會在Google的網頁排名核心或是Facebook的朋友們推薦算法時看到R的蹤影,工程師會在R里建立一個原型,然后再到Java或Python里寫模型語法”。

舉一個使用R很有名的例子,在2010年時,PaulButler用R來建立Facebook的世界地圖,證明了這個語言有多豐富多強大的可視化數據能力,雖然他現在比以前更少使用R了。

“R已經逐漸過時了,在龐大的數據集底下它跑的慢又笨重”Butler說。

所以接下來他用什么呢?

Python

如果說R是神經質又令人喜愛的Geek,那Python就是隨和又好相處的女生。

Python結合了R的快速、處理復雜數據采礦的能力以及更務實的語言等各個特質,迅速地成為主流,Python比起R,學起來更加簡單也更直觀,而且它的生態系統近幾年來不可思議地快速成長,在統計分析上比起R功能更強。

Butler說,“過去兩年間,從R到Python地顯著改變,就像是一個巨人不斷地推動向前進”。

在數據處理范疇內,通常在規模與復雜之間要有個取舍,而Python以折衷的姿態出現。IPythonNotebook(記事本軟件)和NumPy被用來暫時存取較低負擔的工作量,然而Python對于中等規模的數據處理是相當好的工具;Python擁有豐富的資料族,提供大量的工具包和統計特征。

美國銀行用Python來建立新產品和在銀行的基礎建設接口,同時也處理財務數據,“Python是更廣泛又相當有彈性,所以大家會對它趨之若鶩。”O’Donnell如是說。

然而,雖然它的優點能夠彌補R的缺點,它仍然不是最高效能的語言,偶爾才能處理龐大規模、核心的基礎建設。Dris買粉絲ll是這么認為的。

Julia

今日大多數的數據科學都是透過R、Python、Java、Matlab及SAS為主,但仍然存在著鴻溝要去彌補,而這個時候,新進者Julia看到了這個痛點。

Julia仍太過于神秘而尚未被業界廣泛的采用,但是當談到它的潛力足以搶奪R和Python的寶座時,數據黑客也難以解釋。原因在于Julia是個高階、不可思議的快速和善于表達的語言,比起R要快的許多,比起Python又有潛力處理更具規模的數據,也很容易上手。

“Julia會變的日漸重要,最終,在R和Python可以做的事情在Julia也可以”。Butler是這么認為的。

Dris買粉絲ll說,它就是因為它年輕,才會有可能變成主流又有前景。

Java

Dris買粉絲ll說,Java和以Java為基礎的架構,是由硅谷里最大的幾家科技公司的核心所建立的,如果你從Twitter、Linkedin或是Facebook里觀察,你會發現Java對于所有數據工程基礎架構而言,是非常基礎的語言。

Java沒有和R和Python一樣好的可視化功能,它也不是統計建模的最佳工具,但是如果你需要建立一個龐大的系統、使用過去的原型,那Java通常會是你最基的選擇。

Hadoop and Hive

為了迎合大量數據處理的需求,以Java為基礎的工具群興起。Hadoop為處理一批批數據處理,發展以Java為基礎的架構關鍵;相較于其他處理工具,Hadoop慢許多,但是無比的準確和可被后端數據庫分析廣泛使用。和Hive搭配的很好,Hive是基于查詢的架構下,運作的相當好。

Scala

又是另一個以Java為基礎的語言,和Java很像,對任何想要進行大規模的機械學習或是建立高階的算法,Scala會是逐漸興起的工具。它是善于呈現且擁有建立可靠系統的能力。

“Java像是用鋼鐵建造的;Scala則是讓你能夠把它拿進窯烤然后變成鋼的黏土”Dris買粉絲ll說。

Kafka andStorm

說到當你需要快速的、實時的分析時,你會想到什么?Kafka將會是你的最佳伙伴。其實它已經出現五年有了,只是因為最近串流處理興起才變的越來越流行。

Kafka是從Linkedin內誕生的,是一個特別快速的查詢訊息系統。Kafka的缺點呢?就是它太快了,因此在實時操作時它會犯錯,有時候會漏掉東西。

魚與熊掌不可兼得,「必須要在準確度跟速度之間做一個選擇」,Dris買粉絲ll說。所以全部在硅谷的科技大公司都利用兩個管道:用Kafka或Storm處理實時數據,接下來打開Hadoop處理一批批處理數據系統,這樣聽起來有點麻煩又會有些慢,但好處是,它非常非常精準。

Storm是另一個從Scala寫出來的架構,在硅谷逐漸大幅增加它在串流處理的受歡迎程度,被Twitter并購,這并不意外,因為Twitter對快速事件處理有極大的興趣。

Matlab

Matlab可以說是歷久不衰,即使它標價很高;在非常特定的利基市場它使用的相當廣泛,包括密集的研究機器學習、信號處理、圖像辨識等等。

Octave

Octave和Matlab很像,除了它是免費的之外。然而,在學術信號處理的圈子,幾乎都會提到它。

GO

GO是另一個逐漸興起的新進者,從Google開發出來的,放寬點說,它是從C語言來的,并且在建立強大的基礎架構上,漸漸地成為Java和Python的競爭者。

這么多的軟件可以使用,但我認為不見得每個都一定要會才行,知道你的目標和方向是什么,就選定一個最適合的工具使用吧!可以幫助你提升效率又達到精準的結果。

大數據開發常用的編程語言有哪些?

1、Python語言

如果你的數據科學家不使用R,他們可能就會徹底了解Python。十多年來,Python在學術界當中一直很流行,尤其是在自然語言處理(NLP)等領域。因而,如果你有一個需要NLP處理的項目,就會面臨數量多得讓人眼花繚亂的選擇,包括經典的NTLK、使用GenSim的主題建模,或者超快、準確的spaCy。同樣,說到神經網絡,Python同樣游刃有余,有Theano和Tensorflow;隨后還有面向機器學習的scikit-learn,以及面向數據分析的NumPy和Pandas。

還有Juypter/iPython――這種基于Web的筆記本服務器框架讓你可以使用一種可共享的日志格式,將代碼、圖形以及幾乎任何對象混合起來。這一直是Python的殺手級功能之一,不過這年頭,這個概念證明大有用途,以至于出現在了奉行讀取-讀取-輸出-循環(REPL)概念的幾乎所有語言上,包括Scala和R。

Python往往在大數據處理框架中得到支持,但與此同時,它往往又不是“一等公民”。比如說,Spark中的新功能幾乎總是出現在Scala/Java綁定的首位,可能需要用PySpark編寫面向那些更新版的幾個次要版本(對Spark Streaming/MLLib方面的開發工具而言尤為如此)。

與R相反,Python是一種傳統的面向對象語言,所以大多數開發人員用起來會相當得心應手,而初次接觸R或Scala會讓人心生畏懼。一個小問題就是你的代碼中需要留出正確的空白處。這將人員分成兩大陣營,一派覺得“這非常有助于確保可讀性”,另一派則認為,我們應該不需要就因為一行代碼有個字符不在適當的位置,就要迫使解釋器讓程序運行起來。

2、R語言

在過去的幾年時間中,R語言已經成為了數據科學的寵兒——數據科學現在不僅僅在書呆子一樣的統計學家中人盡皆知,而且也為華爾街交易員,生物學家,和硅谷開發者所家喻戶曉。各種行業的公司,例如Google,Facebook,美國銀行,以及紐約時報都使用R語言,R語言正在商業用途上持續蔓延和擴散。

R語言有著簡單而明顯的吸引力。使用R語言,只需要短短的幾行代碼,你就可以在復雜的數據集中篩選,通過先進的建模函數處理數據,以及創建平整的圖形來代表數字。它被比喻為是Excel的一個極度活躍版本。

R語言最偉大的資本是已圍繞它開發的充滿活力的生態系統:R語言社區總是在不斷地添加新的軟件包和功能到它已經相當豐富的功能集中。據估計,超過200萬的人使用R語言,并且最近的一次投票表明,R語言是迄今為止在科學數據中最流行的語言,被61%的受訪者使用(其次是Python,39%)。

3、JAVA

Java,以及基于Java的框架,被發現儼然成為了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你會發現,Java是它們所有數據工程基礎設施的基礎語言,”Dris買粉絲ll說。

Java不能提供R和Python同樣質量的可視化,并且它并非統計建模的最佳選擇。但是,如果你移動到過去的原型制作并需要建立大型系統,那么Java往往是你的最佳選擇。

4、Hadoop和Hive

一群基于Java的工具被開發出來以滿足數據處理的巨大需求。Hadoop作為首選的基于Java的框架用于批處理數據已經點燃了大家的熱情。Hadoop比其他一些處理工具慢,但它出奇的準確,因此被廣泛用于后端分析。它和Hive——一個基于查詢并且運行在頂部的框架可以很好地結對工作。

回歸分析 | R語言 -- 多元線性回歸

多元線性回歸 是 簡單線性回歸 的擴展,用于基于多個不同的預測變量(x)預測結果變量(y)。

例如,對于三個預測變量(x),y​​的預測由以下等式表示: y = b0 + b1*x1 + b2*x2 + b3*x3

回歸貝塔系數測量每個預測變量與結果之間的關聯。“ b_j”可以解釋為“ x_j”每增加一個單位對y的平均影響,同時保持所有其他預測變量不變。

在本節中,依然使用 datarium 包中的 marketing 數據集,我們將建立一個多元回歸模型,根據在三種廣告媒體(youtube,facebook和報紙)上投入的預算來預測銷售。計算公式如下: sales = b0 + b1*youtube + b2*facebook + b3*newspaper

您可以如下計算R中的多個回歸模型系數:

請注意,如果您的數據中包含許多預測變量,則可以使用 ~. 以下命令將模型中的所有可用變量簡單地包括在內:

從上面的輸出中,系數表顯示β系數估計值及其顯著性水平。列為:

如前所述,您可以使用R函數輕松進行預測 predict() :

在使用模型進行預測之前,您需要評估模型的統計顯著性。通過顯示模型的統計摘要,可以輕松地進行檢查。

顯示模型的統計摘要,如下所示:

摘要輸出顯示6個​​組件,包括:

解釋多元回歸分析的第一步是在模型摘要的底部檢查F統計量和關聯的p值。

在我們的示例中,可以看出F統計量的p值<2.2e-16,這是非常重要的。這意味著 至少一個預測變量與結果變量顯著相關 。

要查看哪些預測變量很重要,您可以檢查系數表,該表顯示了回歸beta系數和相關的t統計p值的估計。

對于給定的預測變量,t統計量評估預測變量和結果變量之間是否存在顯著關聯,即,預測變量的beta系數是否顯著不同于零。

可以看出,youtube和facebook廣告預算的變化與銷售的變化顯著相關,而報紙預算的變化與銷售卻沒有顯著相關。

對于給定的預測變量,系數(b)可以解釋為預測變量增加一個單位,同時保持所有其他預測變量固定的對y的平均影響。

例如,對于固定數量的youtube和報紙廣告預算,在Facebook廣告上花費額外的1000美元,平均可以使銷售額增加大約0.1885 * 1000 = 189個銷售單位。

youtube系數表明,在所有其他預測變量保持不變的情況下,youtube廣告預算每增加1000美元,我們平均可以預期增加0.045 * 1000 = 45個銷售單位。

我們發現報紙在多元回歸模型中并不重要。這意味著,對于固定數量的youtube和報紙廣告預算,報紙廣告預算的變化不會顯著影響銷售單位。

由于報紙變量不重要,因此可以 將其從模型中刪除 ,以提高模型精度:

最后,我們的模型公式可以寫成如下:。 sales = 3.43+ 0.045*youtube + 0.187*facebook

一旦確定至少一個預測變量與結果顯著相關,就應該通過檢查模型對數據的擬合程度來繼續診斷。此過程也稱為擬合優度

可以使用以下三個數量來評估線性回歸擬合的整體質量,這些數量顯示在模型摘要中:

與預測誤差相對應的RSE(或模型 sigma )大致代表模型觀察到的結果值和預測值之間的平均差。RSE越低,模型就越適合我們的數據。

將RSE除以結果變量的平均值將為您提供預測誤差率,該誤差率應盡可能小。

在我們的示例中,僅使用youtube和facebook預測變量,RSE = 2.11,這意味著觀察到的銷售值與預測值的平均偏差約為2.11個單位。

這對應于2.11 / mean(train.data $ sales)= 2.11 / 16.77 = 13%的錯誤率,這很低。

R平方(R2)的范圍是0到1,代表結果變量中的變化比例,可以用模型預測變量來解釋。

對于簡單的線性回歸,R2是結果與預測變量之間的皮爾森相關系數的平方。在多元線性回歸中,R2表示觀察到的結果值與預測值之間的相關系數。

摘要輸出中“已調整的R平方”值中的調整是對預測模型中包含的x變量數量的校正。

在我們的示例中,調整后的R2為0.88,這很好。

回想一下,F統計量給出了模型的整體重要性。它評估至少一個預測變量是否具有非零系數。

在簡單的線性回歸中,此檢驗并不是真正有趣的事情,因為它只是復制了系數表中可用的t檢驗給出的信息。

一旦我們開始在多元線性回歸中使用多個預測變量,F統計量就變得更加重要。

大的F統計量將對應于統計上顯著的p值(p <0.05)。在我們的示例中,F統計量644產生的p值為1.46e-42,這是非常重要的。

我們將使用測試數據進行預測,以評估回歸模型的性能。

步驟如下:

從上面的輸出中,R2為 0.9281111 ,這意味著觀察到的結果值與預測的結果值高度相關,這非常好。

預測誤差RMSE為 1.612069 ,表示誤差率為 1.612069 / mean(testData $ sales) = 1.612069/ 15.567 = 10.35 % ,這很好。

本章介紹了線性回歸的基礎,并提供了R中用于計算簡單和多個線性回歸模型的實例。我們還描述了如何評估模型的性能以進行預測。

Meta 開源了語言翻譯 AI 模型

Meta(前身是 Facebook)在開源世界做出了不小的貢獻。Meta 除了專注于元宇宙Metaverse和其社交媒體平臺外,還致力于各種研究和創新工作,比如 React(一個 JaveScript 庫)。

現在,Meta 的研究人員決定開源一個叫 “不落下任何語言No Language Left Behind” 項目。

(LCTT 校注:這個直譯項目名稱不夠好聽,我來拋磚引玉,似可稱做“無人獨語”,讀者有什么建議嗎?)

目前,雖然世界上有大約 7000 個在使用中的語言,但大多數在線的內容都是以少數的流行語言來提供的,比如英語。這讓許多不懂這些語言的人處于不利的地位。

雖然現存的許多翻譯工具,但語法錯誤會讓錯誤變得難以閱讀和理解。另外,如果你想把內容翻譯為一個不流行的語言(特別是非洲和亞洲的一些語言),翻譯體驗不會很好。

因此,Meta 正在開發有最高質量的翻譯工具,可以幫助解決這一全球性的問題。

NLLB-200(不落下任何語言No Language Left Behind) 是一個人工智能翻譯模型,其可以翻譯 200 多種語言。該模型在每種語言中的翻譯結果是通過一個名為 FLORES-200 復雜數據集來確定和評估的。

正如 Meta 所說,NLLB 的翻譯結果比以前的人工智能研究方法好 40% 。對于一些最不常見的語言,其翻譯準確率甚至超過 70%。了不起的工作!

為了幫助開發項目和提高模型的翻譯質量,Meta 向所有感興趣的研究人員開放了源代碼,包括 NLLB-200 模型、FLORES-200 數據庫、模型訓練和重建訓練數據庫的代碼。

Meta 宣布向從事聯合國可持續發展目標UN Sustainable Development Goals任何領域工作和翻譯非洲語言的非營利組織和研究人員提供高達 20 萬美元的捐贈,也鼓勵其他學術領域如語言學和機器翻譯的研究人員申請。

盡管 Meta 主要打算在其數字平臺上,特別是在“元宇宙”上使用 NLLB,但 NLLB 也有可能在其他領域產生巨大影響。

許多用戶可以用他們的母語輕松地訪問和閱讀在線資源。項目開源后,社區應該能夠幫助實現這個目標。

你對 Meta 的這個項目有什么看法?

via: 買粉絲s://news.itsfoss.買粉絲/meta-open-source-ai-model/

作者:Rishabh Moharir選題:lkxed譯者:fenglyulin校對:wxy

智能ai對話輕量級模型和重量型區別

智能ai對話輕量級模型和重量型區別在于,起源于圖靈測試的AI對話系統,是人工智能領域最重要的研究方向之一。如果說自然語言處理是人工智能“皇冠上的明珠”,那么AI對話系統則是自然語言處理中最難、最核心的任務之一,是“明珠中最亮的那顆”。因此,AI對話系統被認為是衡量人工智能發展水平的重要因素,代表了人工智能的發展方向。在工業應用領域,AI對話系統呈現出“爆炸式”增長的態勢,如以“小度”“小愛”為代表的智能助理,廣泛應用于個人助理、智能家居、智能 汽車 中,還有以谷歌對話機器人Meena、Facebook聊天機器人Blender為代表的開放域閑聊產品中,與大眾日常生活緊密相關。

近年來,隨著深度學習技術的不斷發展,AI對話系統已經從基于規則的第一代和以傳統機器學習為核心的第二代,發展到以大數據和大模型為顯著特征的第三代,對話能力產生了革命性變化,在開放話題上展現了驚人的對話能力,對進一步推動人工智能產業發展、實現智能化具有巨大意義和價值。

很赞哦!(15973)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:湖南衡阳雁峰区

工作室:小组

Email:[email protected]