您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

01 facebook大語言模型(大數據處理需要用到的九種編程語言)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-30 15:23:04【】2人已围观

简介facebook的bart大模型全稱?Facebook的BART大模型全稱為BidirectionalandAutoRegressiveTransformers。BART是FacebookAIRese

facebook的bart大模型全稱?

Facebook的BART大模型全稱為Bidirectional and AutoRegressive Transformers。

BART是Facebook AI Research(FAIR)團隊開發的一種基于Transformer架構的序列生成模型。BART模型結合了雙向編碼器和自回歸解碼器的特點,可以用于多種自然語言處理任務,如文本摘要、機器翻譯和對話生成等。BART模型的核心思想是通過預訓練和微調的方式,利用大規模的無監督數據來學習語言的表示和生成能力。

《預訓練周刊》第33期:預訓練語言模型的高效分層域適應

關于周刊

本期周刊,我們選擇了9篇預訓練相關的論文,涉及詞匯遷移、常識問答、多模態訓練、層次訓練、對比學習、圖像分割、圖文模型、蛋白質作用和免疫特征表示的 探索 。此外,在研究動態方面,我們選擇了2篇預訓練資訊,將介紹大模型競爭和視覺算法年度回顧方面的一些最新內容。最后,在資源推薦方面,我們選擇了1篇預訓練資源,將介紹跨語言摘要方面的一些最新內容。

本期貢獻者:申德周 翟珂 吳新剛

論文推薦

標題:俄羅斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer(微調Transformer:詞匯遷移)

簡介:本文討論了巨大型預訓練模型為下游任務微調而引發遷移學習的 探索 之一:詞匯遷移。自然語言處理領域最新進展中Transformer已成為絕對主流。這些模型的大多數實際自然語言處理應用通常是通過遷移學習實現的。本文研究了用于微調的語料庫特定標記化是否會提高模型的最終性能。作者通過一系列的詞匯表優化和遷移實驗,證明了這種詞匯表優化和遷移策略可以提高模型的性能。作者稱之為:在遷移學習領域開創了詞匯遷移的這一方向。

論文地址:「鏈接」

標題:加州大學 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形轉換和一致性優化的小樣本常識問答)

簡介:本文在常識問答(CQA)方向研究預訓練語言模型中的知識提取。作者將重點放在更好地利用預訓練語言模型中存儲的知識。雖然研究人員發現,通過讓預先訓練的語言模型填充精心設計的關系提取和文本分類提示的空白,可以提取嵌入在預訓練的語言模型中的知識,但目前尚不清楚作者是否可以在CQA中采用這種范式,其中輸入和輸出的形式更加靈活。為此,作者研究了四種可以將自然問題翻譯成完形填空式句子的翻譯方法,以更好地從語言模型中獲取常識性知識,包括基于句法的模型、無監督神經模型和兩種監督神經模型。此外,為結合不同的翻譯方法,作者提議鼓勵使用未標記數據對不同翻譯問題進行模型一致性的預測。實驗證明了作者的方法在三個CQA數據集上的有效性。

論文地址:「鏈接」

標題:威斯康星大學、微軟等 | RegionCLIP: Region-based Language-Image Pretraining(基于區域的語言圖像預訓練)

簡介:本文研究了基于識別圖像區域的語言圖像預訓練模型。業界使用“圖像-文本對”的對比語言圖像預訓練 (CLIP)在零樣本和遷移學習中的圖像分類方面取得了令人印象深刻的結果。然而,作者表明直接應用此類模型來識別圖像區域以進行對象檢測會導致性能不佳,因為存在域偏移:CLIP 被訓練以將圖像作為一個整體與文本描述進行匹配,而沒有捕獲圖像之間的細粒度對齊區域和文本跨度。為了緩解這個問題,作者提出了一種稱為 RegionCLIP 的新方法,該方法顯著擴展了 CLIP 以學習區域級視覺表示,從而實現圖像區域和文本概念之間的細粒度對齊。作者的方法利用 CLIP 模型將圖像區域與模板標題匹配,然后預訓練作者的模型以在特征空間中對齊這些區域-文本對。當將作者的預訓練模型轉移到開放詞匯對象檢測任務時,作者的方法在 COCO 和 LVIS 數據集上的新類別分別顯著優于現有技術 3.8 AP50 和 2.2 AP。

論文地址:「鏈接」

代碼地址:買粉絲s://github.買粉絲/microsoft/RegionCLIP

標題:艾倫AI研究所、慕尼黑大學 | Efficient Hierarchical Domain Adaptation for Pretrained Language Models(預訓練語言模型的高效分層域適應)

簡介:本文研究了以分層樹結構的域表示實現預訓練語言模型的分層。生成式的語言模型,在不同的通用領域語料庫上進行訓練,然而這就限制了它們對更窄領域的適用性,之前的工作表明,持續的領域內訓練可以提供進一步的收益。在本文中,作者介紹了一種使用計算效率高的適配器方法將域適應擴展到許多不同域的方法。作者的方法基于對文本域部分重疊的觀察,作者將域表示為分層樹結構,其中樹中的每個節點都與一組適配器權重相關聯。當與凍結的預訓練語言模型相結合時,這種方法可以實現相關領域之間的參數共享,同時避免不相關領域之間的負面干擾。該方法很高效:對于 D 個域,計算成本為 O(log(D))。GPT-2 的實驗結果和 C4 中 100 個最具代表性的網站中的大部分顯示了域內的全面改進。作者還為保留域提供了一種推理時間算法,并表明對通過樹的多條路徑進行平均可以進一步提高泛化效果,同時僅增加推理的邊際成本。

論文地址:「鏈接」

標題:谷歌、亞馬遜等 | Supervised Graph Contrastive Pretraining for Text Classification(用于文本分類的有監督圖對比預訓練)

簡介:本文介紹了用于文本分類的對比預訓練技術。但是,通常可以使用來自與當前任務共享標簽語義的相關任務的標記數據。作者假設有效地使用這些標記數據可以更好地概括當前任務。在本文中,作者提出了一種通過基于圖的監督對比學習方法有效利用來自相關任務的標記數據的新方法。作者通過將監督信息從示例外推到令牌來制定令牌圖。作者的公式產生了一個嵌入空間,其中屬于同一類的高/低概率標記彼此靠近/遠離。作者還提出了詳細的理論見解、以作為本研究方法的驅動。基于作者采用的數據集,實驗表明:作者的方法優于預訓練方案 2.5 % 、并且基于示例級對比學習的公式提升約 1.8 %。此外,在零樣本場景中實驗表明跨域有效性平均提升3.91%。最后,作者還證明了該方法可以用作知識蒸餾設置中的噪聲教師模型、約平均提升4.57% 。

論文地址:「鏈接」

標題:百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation(ERNIE-ViLG:雙向視覺語言生成的統一生成式預訓練)

簡介:視覺語言預訓練模型極大地提高了圖像-文本生成任務的性能,但用于文本-圖像生成任務的大規模預訓練模型仍在研究中。本文提出了ERNIE-ViLG,一個統一的生成式預訓練框架,基于Transformer模型并將圖像生成和文本生成都表述為以文本/圖像輸入為條件的自回歸生成任務。雙向的圖像-文本生成模型簡化了跨視覺和語言的語義對接。對于文本到圖像的生成過程,作者進一步提出了一種端到端的訓練方法來共同學習視覺序列生成器和圖像重建器。為了 探索 雙向文本-圖像生成的大規模預訓練的前景,本文在1.45億圖像-中文文本對的大規模數據集上訓練了一個100億參數的模型,該模型在文本-圖像和圖像-文本任務上都取得了最先進的性能。

論文地址:「鏈接」

標題:華中科大、西安交大、微軟 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model(用預訓練視覺語言模型進行零樣本語義分割的基線)

簡介:通過視覺語言預訓練的零樣本圖像分類已經漸趨成熟,然而在更廣泛的視覺問題上如物體檢測和語義分割還需研究。本文在預訓練的視覺語言模型CLIP上構建零樣本語義分割基線。該問題難點在于語義分割和CLIP模型在不同的視覺顆粒度上執行,語義分割在像素上處理,而CLIP在圖像上執行。為了彌補處理粒度上的差異,本文沒有使用普遍的基于FCN的單階段框架,而使用一個兩階段的語義分割框架,第一階段提取泛化掩碼,第二階段利用基于圖像的CLIP模型,對第一階段產生的掩碼圖像作物進行零樣本分類。本文的實驗結果表明,這個簡單的框架在很大程度上超過了目前的先進技術。憑借其簡單性和強大的性能,本文希望這個框架能夠作為基線以助未來的研究。

論文地址:「鏈接」

標題:中山大學 | AlphaFold2-aware protein-DNA binding site prediction using graph transformer(使用圖Transformer進行結合AlphaFold2的蛋白質-DNA結合位點預測)

簡介:蛋白質與DNA的相互作用在生物系統中起著至關重要的作用,確定蛋白質與DNA的結合位點是對各種生物活動,如轉錄和修復,進行機理理解和設計新型藥物的第一步。現有的基于序列的方法只考慮了順序相鄰的上下文特征,這對捕捉空間信息是有限的。對此本文提出GraphSite,作者將結合位點預測問題轉化為圖節點分類任務,并采用基于Transformer的預訓練模型,通過AlphaFold2預測結構,將蛋白質結構信息、AlphaFold2中Evoformer的表征和序列進化信息考慮在內實現DNA結合殘基的識別。GraphSite大大改善了基于序列和結構的最新方法,并且在181種蛋白質的獨立測試集上得到進一步證實,在AUPR和MCC上分別超過了最先進的基于結構的方法16.4%和11.2%。

論文地址:「鏈接」

標題:耶魯 | Pipeline for retrieval of COVID-19 immune signatures(檢索COVID-19免疫特征的流程)

簡介:隨著生物醫學文獻出版速度的加快,檢索其中的特定的科學信息變得更有意義。在新冠流行的大背景下,有效地檢索病毒免疫特征,即生物標志物,可以幫助了解不同的SARS-CoV-2感染的免疫反應機制。對此,本文構建了一個系統的流程來識別和提取結構化的COVID-19免疫特征。具體而言,作者使用基于SPECTER預訓練的生物文本嵌入,配合SVM分類器來自動識別含有免疫特征的論文,并進一步對這些論文進行半自動查詢流程構

很赞哦!(54447)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:吉林辽源东辽县

工作室:小组

Email:[email protected]