您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

facebook分割模型(玩具士兵——游戲攻略心得(一)) - 副本

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-10 07:49:17【】2人已围观

简介R-CNN和MaskR-CNN在圖像分割中的應用史姓名:王咫毅學號:19021211150【嵌牛導讀】機器學習成為現在研究的一大熱門,而機器學習所應用到的領域圖像處理目標檢測圖像分割都已經日趨成熟,而

R-CNN和Mask R-CNN在圖像分割中的應用史

姓名:王咫毅

學號:19021211150

【嵌牛導讀】機器學習成為現在研究的一大熱門,而機器學習所應用到的領域圖像處理 目標檢測 圖像分割都已經日趨成熟,而買粉絲n是如何應用到圖像分割里邊的呢?而其發展過程又有哪些呢?

【嵌牛鼻子】機器學習 買粉絲n 

【嵌牛提問】r-買粉絲n和mask r-買粉絲n有什么區別?兩者又是怎么形成的?

【嵌牛正文】

在 Athelas (Athelas 通過深度學習進行血液診斷),我們使用卷積神經網絡(CNN)不僅僅是分類!在這篇文章中,我們將看到如何在圖像實例分割中使用CNN,效果很好。

自從 Alex Krizhevsky,Geoff Hinton和Ilya Sutskever在2012年贏得ImageNet以來 ,卷積神經網絡(CNNs)已經成為圖像分類的黃金標準。事實上,從那時起,CNN已經改進到現在他們在ImageNet挑戰中勝過人類的程度!

need-to-insert-img

CNN現在在ImageNet挑戰中勝過人類。上圖中的y軸是ImageNet上的錯誤率。

雖然這些結果令人印象深刻,但圖像分類遠比真人類視覺理解的復雜性和多樣性簡單得多。

need-to-insert-img

分類挑戰中使用的圖像示例。請注意圖像是如何構圖良好的,并且只有一個對象。

在分類中,通常有一個圖像,其中一個對象作為焦點,任務是說該圖像是什么(見上文)。但是,當我們觀察周圍的世界時,我們會執行更復雜的任務。

need-to-insert-img

現實生活中的景點通常由許多不同的,重疊的物體,背景和動作組成。

我們看到復雜的景點有多個重疊的物體和不同的背景,我們不僅要對這些不同的物體進行分類,還要確定它們之間的界限,差異和關系!

need-to-insert-img

CNN可以幫助我們完成這些復雜的任務嗎?也就是說,給定一個更復雜的圖像,我們可以使用CNN來識別圖像中的不同對象及其邊界嗎?正如Ross Girshick和他的同齡人在過去幾年所表明的那樣,答案是肯定的。

這篇文章的目標

通過這篇文章,我們將介紹在對象檢測和分割中使用的一些主要技術背后的直覺,并了解它們是如何從一個實現發展到下一個實現的。特別是,我們將介紹R-CNN(地區CNN),這是CNN對此問題的原始應用,以及其后代Fast R-CNN和Faster R-CNN。最后,我們將介紹最近由Facebook Research發布的一篇文章Mask R-CNN,它擴展了這種對象檢測技術以提供像素級分割。以下是本文中引用的論文:

R-CNN: 買粉絲s : //arxiv.org/abs/1311.2524

Fast R-CNN: 買粉絲s : //arxiv.org/abs/1504.08083

Faster R-CNN: 買粉絲s : //arxiv.org/abs/1506.01497

Mask R-CNN: 買粉絲s : //arxiv.org/abs/1703.06870

2014年:R-CNN - CNN在物體檢測中的早期應用

need-to-insert-img

諸如R-CNN的對象檢測算法接收圖像并識別圖像中主要對象的位置和分類。

受多倫多大學Hinton實驗室研究的啟發,由Jitendra Malik教授領導的加州大學伯克利分校的一個小團隊問自己,今天看來是一個不可避免的問題:

在多大程度上[Krizhevsky等。al的結果]推廣到物體檢測?

對象檢測的任務是在圖像中查找不同的對象并對其進行分類(如上圖所示)。由Ross Girshick(我們將再次看到的名字),Jeff Donahue和Trevor Darrel組成的團隊發現,通過測試PASCAL VOC Challenge,這是一種類似于ImageNet的流行物體檢測挑戰,Krizhevsky的結果可以解決這個問題。他們寫,

本文首次表明,與基于簡單HOG類功能的系統相比,CNN可以在PASCAL VOC上實現更高的物體檢測性能。

現在讓我們花一點時間來了解他們的架構,CNNs區域(R-CNN)是如何工作的。

了解R-CNN

R-CNN的目標是接收圖像,并正確識別圖像中主要對象(通過邊界框)的位置。

輸入 :圖像

輸出 :圖像中每個對象的邊界框+標簽。

但是我們如何找出這些邊界框的位置?R-CNN做了我們可能直觀地做的事情 - 在圖像中 提出 一堆框,看看它們中的任何一個是否實際上對應于一個對象 。

need-to-insert-img

選擇性搜索查看多個比例的窗口,并查找共享紋理,顏色或強度的相鄰像素

R-CNN使用稱為選擇性搜索的過程創建這些邊界框或區域提議,您可以在 此處 閱讀。在較高的層次上,選擇性搜索(如上圖所示)通過不同大小的窗口查看圖像,并且對于每個尺寸,嘗試通過紋理,顏色或強度將相鄰像素組合在一起以識別對象。

need-to-insert-img

在創建一組區域提議后,R-CNN通過AlexNet的修改版本傳遞圖像,以確定它是否是有效區域。

一旦提出建議,R-CNN將該區域變為標準的方形大小,并將其傳遞給AlexNet的修改版本(ImageNet 2012的獲獎提交,啟發了R-CNN),如上所示。

在CNN的最后一層,R-CNN增加了一個支持向量機(SVM),它簡單地分類這是否是一個對象,如果是的話,是什么對象。這是上圖中的第4步。

改進邊界框

現在,在盒子里找到了這個物體,我們可以收緊盒子以適應物體的真實尺寸嗎?我們可以,這是R-CNN的最后一步。R-CNN對區域提議運行簡單的線性回歸,以生成更緊密的邊界框坐標以獲得最終結果。以下是此回歸模型的輸入和輸出:

輸入 :與對象對應的圖像的子區域。

輸出 :子區域中對象的新邊界框坐標。

總而言之,R-CNN只是以下步驟:

1.為邊界框生成一組提議。

2.通過預先訓練的AlexNet運行邊界框中的圖像,最后運行SVM,以查看框中圖像的對象。

3.通過線性回歸模型運行該框,一旦對象被分類,就為框輸出更緊密的坐標。

2015年:快速R-CNN - 加速并簡化R-CNN

need-to-insert-img

Ross Girshick寫了R-CNN和Fast R-CNN。他繼續在Facebook Research推動計算機視覺的界限。

R-CNN效果很好,但由于一些簡單的原因,它確實很慢:

它需要CNN(AlexNet)的正向傳遞,用于每個單個圖像的每個區域建議(每個圖像大約2000個前向傳遞!)。

它必須分別訓練三個不同的模型 - 用于生成圖像特征的CNN,用于預測類的分類器,以及用于收緊邊界框的回歸模型。這使得管道極難訓練。

2015年,R-CNN的第一作者Ross Girshick解決了這兩個問題,導致了我們短暫歷史中的第二個算法 - 快速R-CNN。現在讓我們回顧一下它的主要見解。

Fast R-CNN洞察力1:RoI(感興趣區域)池

對于CNN的前向傳遞,Girshick意識到對于每個圖像,圖像的許多建議區域總是重疊,導致我們一次又一次地運行相同的CNN計算(~2000次!)。他的洞察力很簡單 - 為什么不在每張圖像上運行CNN一次,然后找到一種方法來分享〜2000個提案中的計算?

need-to-insert-img

在RoIPool中,創建圖像的完整前向傳遞,并從所得到的前向傳遞中提取每個感興趣區域的買粉絲nv特征。

這正是Fast R-CNN使用稱為RoIPool(感興趣區域池)的技術所做的事情。在其核心,RoIPool分享CNN的前向傳遞,以在其子區域中形成圖像。在上圖中,請注意如何通過從CNN的要素圖中選擇相應的區域來獲取每個區域的CNN要素。然后,匯集每個區域中的要素(通常使用最大池)。所以我們所需要的只是原始圖像的一次傳遞而不是~2000!

快速R-CNN洞察力2:將所有模型組合到一個網絡中

need-to-insert-img

快速R-CNN將CNN,分類器和邊界框回歸器組合成一個單一網絡

Fast R-CNN的第二個見解是在單個模型中聯合訓練CNN,分類器和邊界框回歸器。之前我們有不同的模型來提取圖像特征(CNN),分類(SVM)和收緊邊界框(回歸量),而 快速R-CNN則使用單個網絡來計算所有三個。

您可以在上圖中看到這是如何完成的。快速R-CNN用在CNN頂部的softmax層替換SVM分類器以輸出分類。它還添加了一個與softmax圖層平行的線性回歸圖層,以輸出邊界框坐標。這樣,所需的所有輸出都來自一個網絡!以下是此整體模型的輸入和輸出:

輸入 :帶有區域提案的圖像。

輸出 :每個區域的對象分類以及更嚴格的邊界框。

2016年:更快的R-CNN - 加速地區提案

即使有了所有這些進步,快速R-CNN過程仍然存在一個瓶頸 - 區域提議者。正如我們所看到的,檢測對象位置的第一步是生成一堆潛在的邊界框或感興趣的區域進行測試。在Fast R-CNN中,這些提議是使用 選擇性搜索 創建的,這是一個相當緩慢的過程,被發現是整個過程的瓶頸。

need-to-insert-img

微軟研究院的首席研究員孫健帶領團隊領導更快的R-CNN。

在2015年中期,由Shaoqing Ren,Kaiming He,Ross Girshick和Jian Sun組成的微軟研究團隊找到了一種方法,通過他們(創造性地)命名為快速R-CNN的架構,使該區域提案步驟幾乎免費。

更快的R-CNN的見解是區域建議取決于已經通過CNN的前向傳遞(分類的第一步)計算的圖像的特征。 那么為什么不為區域提案重用那些相同的CNN結果而不是運行單獨的選擇性搜索算法呢?

need-to-insert-img

在Faster R-CNN中,單個CNN用于區域提議和分類。

實際上,這正是R-CNN團隊更快取得的成就。在上圖中,您可以看到單個CNN如何用于執行區域提議和分類。這樣, 只有一個CNN需要接受培訓 ,我們幾乎可以免費獲得地區建議!作者寫道:

我們的觀察結果是,基于區域的探測器(如Fast R-CNN)使用的卷積特征圖也可用于生成區域提議[從而實現幾乎無成本的區域提議]。

以下是其模型的輸入和輸出:

輸入 :圖像(注意不需要區域提議)。

輸出 :圖像中對象的分類和邊界框坐標。

如何生成區域

讓我們花點時間看看R-CNN如何通過CNN功能更快地生成這些區域提案。Faster R-CNN在CNN的功能之上增加了一個完全卷積網絡,創建了所謂的 區域提案網絡 。

need-to-insert-img

區域提案網絡在CNN的功能上滑動窗口。在每個窗口位置,網絡輸出每個錨點的分數和邊界框(因此4k框坐標,其中k是錨的數量)。

區域提議網絡通過在CNN特征映射和每個窗口上傳遞滑動窗口來工作,輸出 k個 潛在的邊界框以及每個框預期有多好的分數。這些 k 盒代表什么?

need-to-insert-img

我們知道人們的邊界框往往是矩形和垂直的。我們可以通過創建這樣的維度錨來利用這種直覺來指導我們的區域提案網絡。

直覺上,我們知道圖像中的對象應該適合某些常見的寬高比和大小。例如,我們知道我們想要一些類似于人類形狀的矩形盒子。同樣,我們知道我們不會看到很多非常薄的盒子。以這種方式,我們創建 k 這樣的常見寬高比,我們稱之為 錨盒 。對于每個這樣的錨箱,我們輸出一個邊界框并在圖像中的每個位置得分。

考慮到這些錨框,我們來看看這個區域提案網絡的輸入和輸出:

輸入 :CNN功能圖。

輸出 :每個錨點的邊界框。表示該邊界框中圖像成為對象的可能性的分數。

然后,我們將可能是對象的每個這樣的邊界框傳遞到Fast R-CNN,以生成分類和收緊的邊界框。

2017:Mask R-CNN - 擴展更快的R-CNN以實現像素級分割

need-to-insert-img

圖像實例分割的目標是在像素級別識別場景中不同的對象是什么。

到目前為止,我們已經看到我們如何能夠以許多有趣的方式使用CNN功能來有效地定位帶有邊界框的圖像中的不同對象。

我們是否可以擴展這些技術以進一步找到每個對象的精確像素而不僅僅是邊界框?這個問題被稱為圖像分割,是Kaiming He和包括Girshick在內的一組研究人員在Facebook AI上使用一種名為 Mask R-CNN 的架構進行探索的。

need-to-insert-img

Facebook AI的研究員Kaiming He是Mask R-CNN的主要作者,也是Faster R-CNN的合著者。

就像Fast R-CNN和Faster R-CNN一樣,Mask R-CNN的潛在直覺也是直截了當的。鑒于Faster R-CNN在物體檢測方面的效果非常好,我們是否可以擴展它以進行像素級分割?

need-to-insert-img

在掩碼R-CNN中,在快速R-CNN的CNN特征之上添加完全卷積網絡(FCN)以生成掩碼(分段輸出)。注意這與Faster R-CNN的分類和邊界框回歸網絡并行。

Mask R-CNN通過向更快的R-CNN添加分支來完成此操作,該分支輸出二進制掩碼,該Mask 表示給定像素是否是對象的一部分。與以前一樣,分支(上圖中的白色)只是基于CNN的特征映射之上的完全卷積網絡。以下是其輸入和輸出:

輸入 :CNN功能圖。

輸出 :矩陣在像素屬于對象的所有位置上為1,在其他位置為0(這稱為 二進制掩碼 )。

但Mask R-CNN的作者不得不進行一次小調整,以使這條管道按預期工作。

RoiAlign - 重新調整RoIPool更準確

need-to-insert-img

而不是RoIPool,圖像通過RoIAlign傳遞,以便RoIPool選擇的特征圖的區域更精確地對應于原始圖像的區域。這是必需的,因為像素級分割需要比邊界框更細粒度的對齊。

當在原始的快速R-CNN架構上運行而沒有修改時,Mask R-CNN作者意識到由RoIPool選擇的特征圖的區域與原始圖像的區域略微不對準。由于圖像分割需要像素級特異性,與邊界框不同,這自然會導致不準確。

作者能夠通過巧妙地調整RoIPool來解決這個問題,使用一種稱為RoIAlign的方法進行更精確的對齊。

need-to-insert-img

我們如何準確地將感興趣的區域從原始圖像映射到特征圖?

想象一下,我們有一個大小為 128x128 的圖像和一個大小為 25x25 的特征圖。讓我們想象一下,我們想要的特征區域對應于原始圖像中左上角的 15x15 像素(見上文)。我們如何從要素圖中選擇這些像素?

我們知道原始圖像中的每個像素對應于特征圖中的~25 / 128像素。要從原始圖像中選擇15個像素,我們只選擇15 * 25 / 128~ = 2.93 像素。

在RoIPool中,我們將它向下舍入并選擇2個像素,導致輕微的錯位。但是,在RoIAlign中, 我們避免了這種舍入。 相反,我們使用 雙線性插值 來準確了解像素2.93處的內容。這在很大程度上是允許我們避免RoIPool引起的錯位的原因。

生成這些掩模后,Mask R-CNN將它們與Faster R-CNN中的分類和邊界框組合在一起,生成如此精確的分割:

need-to-insert-img

Mask R-CNN能夠對圖像中的對象進行分段和分類。

期待

在短短3年時間里,我們已經看到研究界如何從Krizhevsky等進步。al的原始結果是R-CNN,最后一直到Mask R-CNN這樣強大的結果。孤立地看,像面具R-CNN這樣的結果看起來像天才的難以置信的飛躍,是無法接近的。然而,通過這篇文章,我希望你已經看到這些進步如何通過多年的努力和合作實現直觀,漸進的改進。R-CNN,Fast R-CNN,Faster R-CNN以及最后的Mask R-CNN提出的每個想法都不一定是量子跳躍,但它們的總和產品已經產生了非常顯著的結果,使我們更接近人類水平了解視力。

讓我特別興奮的是,R-CNN和Mask R-CNN之間的時間只有三年!通過持續的資金,關注和支持,未來計算機視覺能夠進一步提升?

圖像分割和分類哪個吃資源

圖像分類

圖像分類主要是基于圖像的內容對圖像進行標記,通常會有一組固定的標簽,而你的模型必須預測出最適合圖像的標簽。這個問題對于機器來說相當困難的,因為它看到的只是圖像中的一組數字流。

上圖片來自于Google Images

而且,世界各地經常會舉辦多種多樣的圖像分類比賽。在Kaggle中就可以找到很多這樣的競賽。最著名的比賽之一就是ImageNet挑戰賽。ImageNet實際上是一個很神奇的圖像庫(截止到編輯本文時,其中就約有1400萬張圖像),擁有超過20000個圖像標簽。這是由斯坦福大學計算機視覺實驗室維護的。ImageNet挑戰或大規模視覺識別挑戰(LSVRC)都是一個年度競賽,其中具有諸如目標分類,目標檢測和目標定位等各種子挑戰。LSVRC,特別是目標分類的挑戰,自從2012年,Alex Krizhevsky實施了著名的AlexNet,將圖像的錯誤率降低到15.7%(在當時從未實現),便開始獲得了很多關注。而最新的結果顯示,微軟ResNet的錯誤率為3.57%,Google的Inception-v3已經達到3.46%,而Inception-v4則又向前進了一步。

來源于Alfredo Canziani,Adam Paszke和Eugenio Culurciello于2017年撰寫的文章《實際應用中深度神經網絡模型的分析》(買粉絲s://arxiv.org/pdf/1605.07678.pdf)

2、目標檢測

圖像中的目標檢測涉及識別各種子圖像并且圍繞每個識別的子圖像周圍繪制一個邊界框。這里有一個例子:

上圖片來自于Google Images

3、圖像/實例分割

圖像分割或實例分割包括對具有現有目標和精確邊界的圖像進行分割。

圖片來自于是Google Images

它使用了一種叫做Mask R-CNN的技術,實際上就是我們前面看到的R-CNN技術上的幾個卷積層。微軟、Facebook和Mighty AI聯合發布了這個稱為COCO的數據集。它與ImageNet很相似,但它主要用于分割和檢測。

玩具士兵——游戲攻略心得(一)

由于單位都是玩具,整個游戲是在玩具箱里進行。戰役場景共有12張地圖,搭配英法聯軍“協約國”和德奧聯軍“同盟國”戰役的日夜變化與難易度, 以及各地圖安排的專屬軍用品任務,光是單人戰役就可消耗不少時間。

相當體貼的推出全中文介面,操作說明與故事都能輕松理解。按X鍵還能和Facebook相連結。

360主機與Facebook的連結說明頁面,若有Facebook帳號可點選進入觀看詳細內容。

Toy Soldiers《玩具士兵》是Xbox 360主機在3月推出的Arcade小游戲,雖是小游戲的價格1200微軟點數,但他結合守塔模式的戰略思維與3D射擊游戲于一身,利用第一次世界大戰的 相關史料與場景、兵器,建構一個屬于玩具兵團的戰場。游戲中每個單位都用玩具模型來呈現,不僅喚起小時候的玩具兵回憶,也將血腥的戰場轉化成有趣的模型大 對抗。游戲內容有單機戰役、單機分割對戰與LIVE連線對戰,以下依序分享游戲豐富的內容與樂趣。

一、單機戰役

單機戰役的玩法是在有限的基地平臺搭建適當的固定兵器“火炮”,防御敵軍一波波的進攻,需考慮每波敵軍的特性來配置基地防務。玩家可隨時跳入固 定兵器親自射擊,也可操作坦克或飛機主動出擊。每關開場前有歷史戰役的相關介紹,玩游戲又能吸收些許一戰的知識,真是一舉數得。

初次游玩建議一定要先從訓練關卡與單人戰役著手,逐步了解各項操作技巧與兵器特性。只要能將協約國英法戰役破關,經驗與技術就足夠上線享受對戰 樂趣。

這是基地的核心──玩具箱,只要敵軍單位進入就會消耗1個單位,若玩家代號上的數字降到0或是玩具箱被沖破就輸了。這是訓練關,所以左上角的數 字是100,表示能容忍100個敵方人型或機械單位侵入,一般難度的戰役大約只能容忍20單位的入侵。

《預訓練周刊》第33期:預訓練語言模型的高效分層域適應

關于周刊

本期周刊,我們選擇了9篇預訓練相關的論文,涉及詞匯遷移、常識問答、多模態訓練、層次訓練、對比學習、圖像分割、圖文模型、蛋白質作用和免疫特征表示的 探索 。此外,在研究動態方面,我們選擇了2篇預訓練資訊,將介紹大模型競爭和視覺算法年度回顧方面的一些最新內容。最后,在資源推薦方面,我們選擇了1篇預訓練資源,將介紹跨語言摘要方面的一些最新內容。

本期貢獻者:申德周 翟珂 吳新剛

論文推薦

標題:俄羅斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer(微調Transformer:詞匯遷移)

簡介:本文討論了巨大型預訓練模型為下游任務微調而引發遷移學習的 探索 之一:詞匯遷移。自然語言處理領域最新進展中Transformer已成為絕對主流。這些模型的大多數實際自然語言處理應用通常是通過遷移學習實現的。本文研究了用于微調的語料庫特定標記化是否會提高模型的最終性能。作者通過一系列的詞匯表優化和遷移實驗,證明了這種詞匯表優化和遷移策略可以提高模型的性能。作者稱之為:在遷移學習領域開創了詞匯遷移的這一方向。

論文地址:「鏈接」

標題:加州大學 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形轉換和一致性優化的小樣本常識問答)

簡介:本文在常識問答(CQA)方向研究預訓練語言模型中的知識提取。作者將重點放在更好地利用預訓練語言模型中存儲的知識。雖然研究人員發現,通過讓預先訓練的語言模型填充精心設計的關系提取和文本分類提示的空白,可以提取嵌入在預訓練的語言模型中的知識,但目前尚不清楚作者是否可以在CQA中采用這種范式,其中輸入和輸出的形式更加靈活。為此,作者研究了四種可以將自然問題翻譯成完形填空式句子的翻譯方法,以更好地從語言模型中獲取常識性知識,包括基于句法的模型、無監督神經模型和兩種監督神經模型。此外,為結合不同的翻譯方法,作者提議鼓勵使用未標記數據對不同翻譯問題進行模型一致性的預測。實驗證明了作者的方法在三個CQA數據集上的有效性。

論文地址:「鏈接」

標題:威斯康星大學、微軟等 | RegionCLIP: Region-based Language-Image Pretraining(基于區域的語言圖像預訓練)

簡介:本文研究了基于識別圖像區域的語言圖像預訓練模型。業界使用“圖像-文本對”的對比語言圖像預訓練 (CLIP)在零樣本和遷移學習中的圖像分類方面取得了令人印象深刻的結果。然而,作者表明直接應用此類模型來識別圖像區域以進行對象檢測會導致性能不佳,因為存在域偏移:CLIP 被訓練以將圖像作為一個整體與文本描述進行匹配,而沒有捕獲圖像之間的細粒度對齊區域和文本跨度。為了緩解這個問題,作者提出了一種稱為 RegionCLIP 的新方法,該方法顯著擴展了 CLIP 以學習區域級視覺表示,從而實現圖像區域和文本概念之間的細粒度對齊。作者的方法利用 CLIP 模型將圖像區域與模板標題匹配,然后預訓練作者的模型以在特征空間中對齊這些區域-文本對。當將作者的預訓練模型轉移到開放詞匯對象檢測任務時,作者的方法在 COCO 和 LVIS 數據集上的新類別分別顯著優于現有技術 3.8 AP50 和 2.2 AP。

論文地址:「鏈接」

代碼地址:買粉絲s://github.買粉絲/microsoft/RegionCLIP

標題:艾倫AI研究所、慕尼黑大學 | Efficient Hierarchical Domain Adaptation for Pretrained Language Models(預訓練語言模型的高效分層域適應)

簡介:本文研究了以分層樹結構的域表示實現預訓練語言模型的分層。生成式的語言模型,在不同的通用領域語料庫上進行訓練,然而這就限制了它們對更窄領域的適用性,之前的工作表明,持續的領域內訓練可以提供進一步的收益。在本文中,作者介紹了一種使用計算效率高的適配器方法將域適應擴展到許多不同域的方法。作者的方法基于對文本域部分重疊的觀察,作者將域表示為分層樹結構,其中樹中的每個節點都與一組適配器權重相關聯。當與凍結的預訓練語言模型相結合時,這種方法可以實現相關領域之間的參數共享,同時避免不相關領域之間的負面干擾。該方法很高效:對于 D 個域,計算成本為 O(log(D))。GPT-2 的實驗結果和 C4 中 100 個最具代表性的網站中的大部分顯示了域內的全面改進。作者還為保留域提供了一種推理時間算法,并表明對通過樹的多條路徑進行平均可以進一步提高泛化效果,同時僅增加推理的邊際成本。

論文地址:「鏈接」

標題:谷歌、亞馬遜等 | Supervised Graph Contrastive Pretraining for Text Classification(用于文本分類的有監督圖對比預訓練)

簡介:本文介紹了用于文本分類的對比預訓練技術。但是,通常可以使用來自與當前任務共享標簽語義的相關任務的標記數據。作者假設有效地使用這些標記數據可以更好地概括當前任務。在本文中,作者提出了一種通過基于圖的監督對比學習方法有效利用來自相關任務的標記數據的新方法。作者通過將監督信息從示例外推到令牌來制定令牌圖。作者的公式產生了一個嵌入空間,其中屬于同一類的高/低概率標記彼此靠近/遠離。作者還提出了詳細的理論見解、以作為本研究方法的驅動。基于作者采用的數據集,實驗表明:作者的方法優于預訓練方案 2.5 % 、并且基于示例級對比學習的公式提升約 1.8 %。此外,在零樣本場景中實驗表明跨域有效性平均提升3.91%。最后,作者還證明了該方法可以用作知識蒸餾設置中的噪聲教師模型、約平均提升4.57% 。

論文地址:「鏈接」

標題:百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation(ERNIE-ViLG:雙向視覺語言生成的統一生成式預訓練)

簡介:視覺語言預訓練模型極大地提高了圖像-文本生成任務的性能,但用于文本-圖像生成任務的大規模預訓練模型仍在研究中。本文提出了ERNIE-ViLG,一個統一的生成式預訓練框架,基于Transformer模型并將圖像生成和文本生成都表述為以文本/圖像輸入為條件的自回歸生成任務。雙向的圖像-文本生成模型簡化了跨視覺和語言的語義對接。對于文本到圖像的生成過程,作者進一步提出了一種端到端的訓練方法來共同學習視覺序列生成器和圖像重建器。為了 探索 雙向文本-圖像生成的大規模預訓練的前景,本文在1.45億圖像-中文文本對的大規模數據集上訓練了一個100億參數的模型,該模型在文本-圖像和圖像-文本任務上都取得了最先進的性能。

論文地址:「鏈接」

標題:華中科大、西安交大、微軟 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model(用預訓練視覺語言模型進行零樣本語義分割的基線)

簡介:通過視覺語言預訓練的零樣本圖像分類已經漸趨成熟,然而在更廣泛的視覺問題上如物體檢測和語義分割還需研究。本文在預訓練的視覺語言模型CLIP上構建零樣本語義分割基線。該問題難點在于語義分割和CLIP模型在不同的視覺顆粒度上執行,語義分割在像素上處理,而CLIP在圖像上執行。為了彌補處理粒度上的差異,本文沒有使用普遍的基于FCN的單階段框架,而使用一個兩階段的語義分割框架,第一階段提取泛化掩碼,第二階段利用基于圖像的CLIP模型,對第一階段產生的掩碼圖像作物進行零樣本分類。本文的實驗結果表明,這個簡單的框架在很大程度上超過了目前的先進技術。憑借其簡單性和強大的性能,本文希望這個框架能夠作為基線以助未來的研究。

論文地址:「鏈接」

標題:中山大學 | AlphaFold2-aware protein-DNA binding site prediction using graph transformer(使用圖Transformer進行結合AlphaFold2的蛋白質-DNA結合位點預測)

簡介:蛋白質與DNA的相互作用在生物系統中起著至關重要的作用,確定蛋白質與DNA的結合位點是對各種生物活動,如轉錄和修復,進行機理理解和設計新型藥物的第一步。現有的基于序列的方法只考慮了順序相鄰的上下文特征,這對捕捉空間信息是有限的。對此本文提出GraphSite,作者將結合位點預測問題轉化為圖節點分類任務,并采用基于Transformer的預訓練模型,通過AlphaFold2預測結構,將蛋白質結構信息、AlphaFold2中Evoformer的表征和序列進化信息考慮在內實現DNA結合殘基的識別。GraphSite大大改善了基于序列和結構的最新方法,并且在181種蛋白質的獨立測試集上得到進一步證實,在AUPR和MCC上分別超過了最先進的基于結構的方法16.4%和11.2%。

論文地址:「鏈接」

標題:耶魯 | Pipeline for retrieval of COVID-19 immune signatures(檢索COVID-19免疫特征的流程)

簡介:隨著生物醫學文獻出版速度的加快,檢索其中的特定的科學信息變得更有意義。在新冠流行的大背景下,有效地檢索病毒免疫特征,即生物標志物,可以幫助了解不同的SARS-CoV-2感染的免疫反應機制。對此,本文構建了一個系統的流程來識別和提取結構化的COVID-19免疫特征。具體而言,作者使用基于SPECTER預訓練的生物文本嵌入,配合SVM分類器來自動識別含有免疫特征的論文,并進一步對這些論文進行半自動查詢流程構建,檢索特征信息。此外,基于預訓練嵌入的流程也可確定免疫特征的類型,比如基因表達與其他類型的分析。通過這種方法,部分自動化的文獻挖掘可以幫助快速創建半結構化的知識庫,用于自動分析新出現的 健康 威脅。

論文地址:「鏈接」

資源推薦

標題:孟加拉國工程技術大學、加州大學洛杉磯分校等 | CrossSum:超越 1500 多個語言對的以英語為中心的跨語言抽象文本摘要數據集

簡介:作者提供了 CrossSum:一個包含 165 萬個跨語言文章摘要樣本、包含 45 種語言的 1500 多個語言對的大規模數據集。基于多語言 XL-Sum 數據集,并使用與語言無關的表示模型通過跨語言檢索來對齊以不同語言編寫的相同文章,作者提出了一種多階段數據采樣算法并微調多語言預訓練模型mT5。實驗結果表明在 CrossSum 上微調的模型優于摘要+翻譯基線。

論文地址:「鏈接」

資源下載:買粉絲s://github.買粉絲/csebuetnlp/CrossSum

【關于轉載】本文轉載于買粉絲“智源社區”,僅用于學術分享,有任何問題請與我們聯系:report@aminer.買粉絲

計算機視覺建模平臺有哪些?

計算機視覺建模平臺主要是為了提供一種可視化的、簡化計算機視覺模型的創建過程,常見的計算機視覺建模平臺有以下幾種:

TensorFlow:TensorFlow是一個由Google開發的深度學習框架,提供了豐富的計算機視覺模型,支持多種操作系統和設備平臺。

PyTorch:PyTorch是一個由Facebook開發的深度學習框架,具有靈活性和可擴展性,可用于計算機視覺模型的創建和訓練。

Caffe:Caffe是一個由Berkeley Vision and Learning Center開發的深度學習框架,支持多種計算機視覺模型的創建和訓練,具有高效性和可移植性。

Keras:Keras是一個由Google開發的高層次深度學習框架,具有簡單易用的API接口和多種計算機視覺模型,可以與TensorFlow、Theano、CNTK等后端進行結合使用。

OpenCV:OpenCV是一個開源的計算機視覺庫,提供了多種計算機視覺算法和模型,包括特征檢測、目標檢測、圖像分割等,可以用于計算機視覺建模。

以上是一些常見的計算機視覺建模平臺,它們提供了豐富的工具和資源,可以幫助開發者更加便捷地創建和訓練計算機視覺模型,提高開發效率和模型性能。

很赞哦!(363)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:吉林辽源龙山区

工作室:小组

Email:[email protected]