您现在的位置是：Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >

facebook語言模型(《預訓練周刊》第33期：預訓練語言模型的高效分層域適應)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-17 11:06:03【】1人已围观

简介facebook貼子搜索不到了怎么回事？如果你在Facebook上搜索貼子時出現問題，可能有幾種原因導致：隱私設置：貼子的發布者可能將其設置為僅限特定人群可見。這意味著如果你不符合這些限制條件，你將無

facebook貼子搜索不到了怎么回事？

如果你在Facebook上搜索貼子時出現問題，可能有幾種原因導致：

隱私設置：貼子的發布者可能將其設置為僅限特定人群可見。這意味著如果你不符合這些限制條件，你將無法在搜索結果中看到該貼子。

算法更改：Facebook的搜索算法可能會不斷更新和調整，以提供更相關和個性化的搜索結果。這可能會導致某些貼子不再出現在搜索結果中，因為它們不符合最新的算法要求。

刪除或隱藏：如果某個貼子已被刪除或隱藏，你將無法通過搜索找到它。這可能是由于貼子的發布者主動刪除或隱藏，或者是由于Facebook根據其內容或違反社區準則而刪除或隱藏。

網絡問題：有時，網絡連接不穩定或其他技術問題可能會影響到Facebook的搜索功能。嘗試重新加載頁面或使用其他設備或網絡連接進行搜索，以確定是否是網絡問題導致的。

如果你確定沒有以上問題，并且仍然無法在Facebook上搜索到特定貼子，建議嘗試以下操作：

清除瀏覽器緩存：如果你使用的是瀏覽器訪問Facebook，嘗試清除瀏覽器緩存，然后重新登錄并搜索貼子。

更新應用程序：如果你使用的是Facebook移動應用程序，確保你已安裝最新版本的應用程序。有時，舊版本的應用程序可能會導致搜索問題。

聯系支持：如果問題仍然存在，你可以嘗試與Facebook的支持團隊聯系，向他們報告該問題并獲得進一步的幫助。

請注意，作為語言模型，我無法提供關于你個人賬戶或具體貼子的具體技術支持。如果問題持續存在，最好直接與Facebook的支持團隊聯系以獲取準確的解決方案。

Meta 開源了語言翻譯 AI 模型

Meta（前身是 Facebook）在開源世界做出了不小的貢獻。Meta 除了專注于元宇宙Metaverse和其社交媒體平臺外，還致力于各種研究和創新工作，比如 React（一個 JaveScript 庫）。

現在，Meta 的研究人員決定開源一個叫 “不落下任何語言No Language Left Behind” 項目。

（LCTT 校注：這個直譯項目名稱不夠好聽，我來拋磚引玉，似可稱做“無人獨語”，讀者有什么建議嗎？）

目前，雖然世界上有大約 7000 個在使用中的語言，但大多數在線的內容都是以少數的流行語言來提供的，比如英語。這讓許多不懂這些語言的人處于不利的地位。

雖然現存的許多翻譯工具，但語法錯誤會讓錯誤變得難以閱讀和理解。另外，如果你想把內容翻譯為一個不流行的語言（特別是非洲和亞洲的一些語言），翻譯體驗不會很好。

因此，Meta 正在開發有最高質量的翻譯工具，可以幫助解決這一全球性的問題。

NLLB-200（不落下任何語言No Language Left Behind）是一個人工智能翻譯模型，其可以翻譯 200 多種語言。該模型在每種語言中的翻譯結果是通過一個名為 FLORES-200 復雜數據集來確定和評估的。

正如 Meta 所說，NLLB 的翻譯結果比以前的人工智能研究方法好 40% 。對于一些最不常見的語言，其翻譯準確率甚至超過 70%。了不起的工作！

為了幫助開發項目和提高模型的翻譯質量，Meta 向所有感興趣的研究人員開放了源代碼，包括 NLLB-200 模型、FLORES-200 數據庫、模型訓練和重建訓練數據庫的代碼。

Meta 宣布向從事聯合國可持續發展目標UN Sustainable Development Goals任何領域工作和翻譯非洲語言的非營利組織和研究人員提供高達 20 萬美元的捐贈，也鼓勵其他學術領域如語言學和機器翻譯的研究人員申請。

盡管 Meta 主要打算在其數字平臺上，特別是在“元宇宙”上使用 NLLB，但 NLLB 也有可能在其他領域產生巨大影響。

許多用戶可以用他們的母語輕松地訪問和閱讀在線資源。項目開源后，社區應該能夠幫助實現這個目標。

你對 Meta 的這個項目有什么看法？

via: 買粉絲s://news.itsfoss.買粉絲/meta-open-source-ai-model/

作者：Rishabh Moharir選題：lkxed譯者：fenglyulin校對：wxy

淺談中文分詞與自然語言處理

最近出于興趣和需要，重新回顧中文分詞技術，期間有些心得，以及一些關于自然語言處理的淺薄之見，這里簡單分享一下。

首先，中文分詞_百度百科里面簡單介紹了其中主要的分詞算法以及相應的優缺點，包括字符匹配法、統計法以及理解法，其中字符匹配法和統計法比較流行且可以取到相對不錯的效果，而理解法則相對比較復雜高級，但是我認為這才是真正解決中文分詞任務的根本算法。

如今用于中文分詞的算法和模型雖算不上比比皆是，但也算是唾手可得，開源的如jieba、ltp、Hanlp等等，提供中文分詞服務的如騰訊云、百度大腦、訊飛AI平臺等，以及其他如Jiagu等。

其實這些平臺算法的差距并不算太大，分詞準確率基本上都是在80%以上，然而在98%以下（這里胡謅個數），在一些不太嚴格的應用場景下基本已經夠用了，只要挑一個在自己的業務場景下表現最好的即可。

在我看來，對于中文分詞這項任務而言，最關鍵最核心的其實并不是算法模型，這些都不是所謂的瓶頸，最重要的其實是高質量、大規模的詞典。對于字符匹配法而言，詞典是基礎，沒有詞典自然連分都分不出來；對于統計學習法而言，其效果一方面取決于算法和模型的選擇，一方面取決于其訓練數據的數量與質量，需要堆人力物力，比如找專門的標注公司標注數據等。但是就算是人標的數據，也難免有所錯誤遺漏，所以在有錯誤的訓練數據下，模型也不可能學的太好，同時訓練數據再大，也難以覆蓋全部語料，總會出現OOV，總有些句子會訓練不到，此時還強求模型可以做到“舉一反三”有些不切實際。

詞條中還提到了關于中文分詞的技術難點：歧義識別與新詞識別，關于歧義識別，上面并沒有提具體的解決思路，對于新詞識別而言，這又是自然語言處理領域很基礎并且很重要的點，可以參見一下我之前的文章：《NLP基礎任務之新詞發現探索之路》 | lightsmile's Blog ，也有另一個思路，比如說爬取網上一些網站的相關條目，比如百度百科等。

簡單看了一下 jieba 、 ansj_seg 、 Jiagu 的分詞詞典，發現其中jieba的詞典質量最差，其中不少詞性都是錯誤的，Jiagu的詞典還算不錯，就是一些新詞不全，ansi_seg的沒有細看。

盡管這些工具在一些評測數據的結果可以達到90以上的成績，但是在我看來，還是不夠的，我覺得中文分詞這個基礎而又艱巨的任務還是要到99%以上才可以，否則分詞都分不對，那些在分詞基礎之上的任務更是不行，畢竟詞是基本的語義單元。

然而在現在深度學習盛行的潮流下，許多任務如文本分類、命名實體識別等并不一定需要依賴于分詞，直接基于字符（char）的Embedding也可以取得不錯的效果，并且也可以規避OOV（out of vocabulary words，未登錄詞）的問題。

但是深度學習，尤其是監督學習的很關鍵之處是得有大規模的高質量訓練數據，不然巧婦難為無米之炊，再好的模型也難以從垃圾中學到有用的知識。

話說回來，雖然自然語言處理是計算機科學與其他領域的交叉學科，深度學習、機器學習算是人工智能的一部分，然而許多時候往往十分依賴人工，而所謂的智能其實也不智能。

無論是計算機視覺領域里的圖像分類還是自然語言處理領域的文本分類，其任務都是學習一個從輸入映射到輸出或者說標簽的函數，具體來說就是將表征為多維向量，將表征為多維向量，然后讓進入一個模型進行一系列的運算后得到一個，通過不斷地比較和的值并調整模型的參數使模型的運算結果更為準確即更加貼近（過程有點類似于 “猜數字”游戲），從而最終得到一個近似函數，我們就可以用來代替未知的用于預測未來的樣本，得到它對應的。

我們可以發現，以上學習算法確實可以得到能夠解決問題的模型，然而局限之處在于它也只能做這個任務，即對輸入預測，別的啥也干不了。

關于模型的選擇和取舍，工業界和學術界的標準其實差別很大。學術界里有的論文是開創性的，而許多論文其實都是在原來基礎上小修小改，將最近的較新的思想和算法一堆，實驗結果比原來指標高一點又是一篇文章，程序運行占用多大內存、跑了多長時間這些都不是主要因素，也就是一切向指標看齊。

而工業界則更加看重的是性價比，不同的公司、不同的部門、不同的階段其主要矛盾不同。比如說Facebook之前出的fastText，盡管模型很簡單，最終效果可能比不上一些其他復雜的模型，但是其訓練速度超快、基于CPU就可以，并且可以很方便地對模型進行壓縮。許多時候，一些指標高低差幾個點并沒有那么關鍵，模型大小、訓練時間、預測時間在很多時候是比較關鍵的因素，除非由于甲方或客戶不滿意，或者家大業大，有的是資源，那么這時候效果和指標又成為主要矛盾，這時的優化可能要以一定的時間和空間為代價。

原來的自然語言處理各任務基本上都構建在分詞的基礎之上，粗略來說有一個語法、語義到語用的遞進的過程。這一層一層的任務雖然耦合的很好，但是

這種Pipline將會導致下層的錯誤都將會被積累到上層，其直接影響就是越到上層其準確率越低，甚至低到慘不忍睹的程度。然而在表示學習，尤其是深度學習崛起以后，其強大的特征學習能力，使得現在的模型多為end-to-end模型，其結果是一方面可以使得相關人員擺脫繁瑣的特征工程，可以將特征提取與組合設計的工作交給神經網絡模型去隱形完成，大大解放了生產力；令一方面可以將模型視為整體的一部分，即它的輸入直接對應原始輸入，它的輸出直接是我們想要的結果，有點直達病灶的意思，擺脫了原來Pipline錯誤累積的困境。

不過我個人看來成也end-to-end，敗也end-to-end，雖然簡化了任務，但是有點太過開門見山，得到的模型一個個都是彼此孤立的，各做各的事情，然而從整體論的角度來看它們都是整個自然語言處理系統的一部分，一些特征本來是可以共享，一些結果是彼此相互依賴的。這也又涉及到參數共享、多任務學習等概念，不細表。由于神經網絡的可解釋性較差，這使得模型更加像一個黑盒，訓練調參的過程更像是在煉丹，因為誰也不知道具體能煉出個什么玩意兒。

如下圖很形象地詮釋了這一現狀：

下面就深度學習下的自然語言處理四大任務進行簡單對比（都是個人淺薄之見，難免有不足之處，還望海涵）。自然語言處理四大任務分別是：序列標注、文本分類、句子關系、文本生成。

序列標注任務的原始語料是一連串的句子，經過標注后的語料格式大概如下（以命名實體識別為例）：

我們可以發現，每一行的格式都是一個字符以及它所對應的類別，如 B_{ type} 、 O ，那么對于每一個字符模型需要預測的類別數量總計為 2*len(types) + 1 ，其中2是指 BI 這種標注規范， len(types) 指類型種類的數量（如人名、地名、機構名共三種），1是指 O 。可以發現模型需要擬合的函數的值域還是很小的，即 O(len(types)) 。

文本分類任務的標注語料格式大概如下（以情感極性分析為例）：

每一行的格式都包含原始文本以及它所對應的類別（或者說標簽），我們可以發現模型需要預測的類別數量總計為 len(types) ，即類型種類的數量（以新聞語料分類，如娛樂、軍事、科技、體育等），可以發現模型需要擬合的函數的值域也是較小的，即 O(len(types)) 。

句子關系任務的標注語料格式大致如下（以語句相似度為例）：

每一行都是兩個句子以及它們的關系（ 1 代表語義相同， 0 代表語義不同），我們可以發現模型需要預測的類別數量總計為 len(relations) ，即關系種類的數量，可以發現模型需要擬合的函數的值域也是較小的，即 O(len(relations)) 。

文本生成任務的標注語料格式大致如下(以機器翻譯為例）：

我們可以發現每一行都是源語言句子以及目標語言的對應翻譯。雖然此時模型和序列標注模型一樣都需要對于單個樣本預測多次，但是序列標注模型需要預測的次數直接等于字符的數量，是確定的，但是文本生成任務模型需要預測的次數是不確定的，并且每次預測的值域都是目標語言所有word（或者character）所組成的整體集合，即 O(len(words)) ，其規模可能是十萬級或百萬級的。因此我們很容易發現文本生成任務的難度和復雜程度是要遠遠高于其他任務的。對話任務如生成式閑聊機器人更是如此。

可能是之前的AlphaGo過于吸引廣大群眾的眼球，做相關業務的公司吹的太厲害，以及“人工智能”、“深度學習”這幾個詞聽起來逼格滿滿，導致許多外行人認為現在的人工智能已經發展到很厲害的層次，并且可以做各種各樣的事情，似乎無所不能。但是內行人心里卻明白：“什么人工智能，人工智障吧”、“所謂人工智能，多是智能不夠，人工來湊”。外行人看不到深度模型算法的局限性，如許多模型的精度并不能達到那么高；也看不到深度模型算法的前提條件，如高質量、大規模的數據集，他們以為模型大約聰明到隨便喂點數據便成為終結者般的存在。這也就導致了他們剛開始預期很高，然而在投資或找到外包后發現效果遠遠不能達到預期，大失所望而潦草結束或撤資離場的局面。

如下一張圖大概有點這個意思：

統觀學術界與工業界，和計算機視覺領域相比，自然語言處理這種更深層次的、涉及到認知智能的領域的進展雖悠久但緩慢，并且許多任務目前為止距離真正商用還有很大的距離。然而正是科學史上如阿基米德、牛頓等偉大人物與其他相對無名之輩默默耕耘，前赴后繼，才使得如今之人類齊享先輩之成果，即所謂“前人栽樹后人乘涼”也。

我輩也無需悲觀，須戒驕戒躁，搞算法的就多己見、少盲從，少水論文；搞工程的就多積累經驗，提升實踐能力，多做高質量的項目。功夫不負有心人。

《預訓練周刊》第33期：預訓練語言模型的高效分層域適應

關于周刊

本期周刊，我們選擇了9篇預訓練相關的論文，涉及詞匯遷移、常識問答、多模態訓練、層次訓練、對比學習、圖像分割、圖文模型、蛋白質作用和免疫特征表示的探索。此外，在研究動態方面，我們選擇了2篇預訓練資訊，將介紹大模型競爭和視覺算法年度回顧方面的一些最新內容。最后，在資源推薦方面，我們選擇了1篇預訓練資源，將介紹跨語言摘要方面的一些最新內容。

本期貢獻者：申德周翟珂吳新剛

論文推薦

標題：俄羅斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer（微調Transformer：詞匯遷移）

簡介：本文討論了巨大型預訓練模型為下游任務微調而引發遷移學習的探索之一：詞匯遷移。自然語言處理領域最新進展中Transformer已成為絕對主流。這些模型的大多數實際自然語言處理應用通常是通過遷移學習實現的。本文研究了用于微調的語料庫特定標記化是否會提高模型的最終性能。作者通過一系列的詞匯表優化和遷移實驗，證明了這種詞匯表優化和遷移策略可以提高模型的性能。作者稱之為：在遷移學習領域開創了詞匯遷移的這一方向。

論文地址：「鏈接」

標題：加州大學 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization（基于完形轉換和一致性優化的小樣本常識問答）

簡介：本文在常識問答（CQA）方向研究預訓練語言模型中的知識提取。作者將重點放在更好地利用預訓練語言模型中存儲的知識。雖然研究人員發現，通過讓預先訓練的語言模型填充精心設計的關系提取和文本分類提示的空白，可以提取嵌入在預訓練的語言模型中的知識，但目前尚不清楚作者是否可以在CQA中采用這種范式，其中輸入和輸出的形式更加靈活。為此，作者研究了四種可以將自然問題翻譯成完形填空式句子的翻譯方法，以更好地從語言模型中獲取常識性知識，包括基于句法的模型、無監督神經模型和兩種監督神經模型。此外，為結合不同的翻譯方法，作者提議鼓勵使用未標記數據對不同翻譯問題進行模型一致性的預測。實驗證明了作者的方法在三個CQA數據集上的有效性。

論文地址：「鏈接」

標題：威斯康星大學、微軟等 | RegionCLIP: Region-based Language-Image Pretraining（基于區域的語言圖像預訓練）

簡介：本文研究了基于識別圖像區域的語言圖像預訓練模型。業界使用“圖像-文本對”的對比語言圖像預訓練 (CLIP)在零樣本和遷移學習中的圖像分類方面取得了令人印象深刻的結果。然而，作者表明直接應用此類模型來識別圖像區域以進行對象檢測會導致性能不佳，因為存在域偏移：CLIP 被訓練以將圖像作為一個整體與文本描述進行匹配，而沒有捕獲圖像之間的細粒度對齊區域和文本跨度。為了緩解這個問題，作者提出了一種稱為 RegionCLIP 的新方法，該方法顯著擴展了 CLIP 以學習區域級視覺表示，從而實現圖像區域和文本概念之間的細粒度對齊。作者的方法利用 CLIP 模型將圖像區域與模板標題匹配，然后預訓練作者的模型以在特征空間中對齊這些區域-文本對。當將作者的預訓練模型轉移到開放詞匯對象檢測任務時，作者的方法在 COCO 和 LVIS 數據集上的新類別分別顯著優于現有技術 3.8 AP50 和 2.2 AP。

論文地址：「鏈接」

代碼地址：買粉絲s://github.買粉絲/microsoft/RegionCLIP

標題：艾倫AI研究所、慕尼黑大學 | Efficient Hierarchical Domain Adaptation for Pretrained Language Models（預訓練語言模型的高效分層域適應）

簡介：本文研究了以分層樹結構的域表示實現預訓練語言模型的分層。生成式的語言模型，在不同的通用領域語料庫上進行訓練，然而這就限制了它們對更窄領域的適用性，之前的工作表明，持續的領域內訓練可以提供進一步的收益。在本文中，作者介紹了一種使用計算效率高的適配器方法將域適應擴展到許多不同域的方法。作者的方法基于對文本域部分重疊的觀察，作者將域表示為分層樹結構，其中樹中的每個節點都與一組適配器權重相關聯。當與凍結的預訓練語言模型相結合時，這種方法可以實現相關領域之間的參數共享，同時避免不相關領域之間的負面干擾。該方法很高效：對于 D 個域，計算成本為 O(log(D))。GPT-2 的實驗結果和 C4 中 100 個最具代表性的網站中的大部分顯示了域內的全面改進。作者還為保留域提供了一種推理時間算法，并表明對通過樹的多條路徑進行平均可以進一步提高泛化效果，同時僅增加推理的邊際成本。

論文地址：「鏈接」

標題：谷歌、亞馬遜等 | Supervised Graph Contrastive Pretraining for Text Classification（用于文本分類的有監督圖對比預訓練）

簡介：本文介紹了用于文本分類的對比預訓練技術。但是，通常可以使用來自與當前任務共享標簽語義的相關任務的標記數據。作者假設有效地使用這些標記數據可以更好地概括當前任務。在本文中，作者提出了一種通過基于圖的監督對比學習方法有效利用來自相關任務的標記數據的新方法。作者通過將監督信息從示例外推到令牌來制定令牌圖。作者的公式產生了一個嵌入空間，其中屬于同一類的高/低概率標記彼此靠近/遠離。作者還提出了詳細的理論見解、以作為本研究方法的驅動。基于作者采用的數據集，實驗表明：作者的方法優于預訓練方案 2.5 % 、并且基于示例級對比學習的公式提升約 1.8 %。此外，在零樣本場景中實驗表明跨域有效性平均提升3.91%。最后，作者還證明了該方法可以用作知識蒸餾設置中的噪聲教師模型、約平均提升4.57% 。

論文地址：「鏈接」

標題：百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation（ERNIE-ViLG：雙向視覺語言生成的統一生成式預訓練）

簡介：視覺語言預訓練模型極大地提高了圖像-文本生成任務的性能，但用于文本-圖像生成任務的大規模預訓練模型仍在研究中。本文提出了ERNIE-ViLG，一個統一的生成式預訓練框架，基于Transformer模型并將圖像生成和文本生成都表述為以文本/圖像輸入為條件的自回歸生成任務。雙向的圖像-文本生成模型簡化了跨視覺和語言的語義對接。對于文本到圖像的生成過程，作者進一步提出了一種端到端的訓練方法來共同學習視覺序列生成器和圖像重建器。為了探索雙向文本-圖像生成的大規模預訓練的前景，本文在1.45億圖像-中文文本對的大規模數據集上訓練了一個100億參數的模型，該模型在文本-圖像和圖像-文本任務上都取得了最先進的性能。

論文地址：「鏈接」

標題：華中科大、西安交大、微軟 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model（用預訓練視覺語言模型進行零樣本語義分割的基線）

簡介：通過視覺語言預訓練的零樣本圖像分類已經漸趨成熟，然而在更廣泛的視覺問題上如物體檢測和語義分割還需研究。本文在預訓練的視覺語言模型CLIP上構建零樣本語義分割基線。該問題難點在于語義分割和CLIP模型在不同的視覺顆粒度上執行，語義分割在像素上處理，而CLIP在圖像上執行。為了彌補處理粒度上的差異，本文沒有使用普遍的基于FCN的單階段框架，而使用一個兩階段的語義分割框架，第一階段提取泛化掩碼，第二階段利用基于圖像的CLIP模型，對第一階段產生的掩碼圖像作物進行零樣本分類。本文的實驗結果表明，這個簡單的框架在很大程度上超過了目前的先進技術。憑借其簡單性和強大的性能，本文希望這個框架能夠作為基線以助未來的研究。

論文地址：「鏈接」

標題：中山大學 | AlphaFold2-aware protein-DNA binding site prediction using graph transformer（使用圖Transformer進行結合AlphaFold2的蛋白質-DNA結合位點預測）

簡介：蛋白質與DNA的相互作用在生物系統中起著至關重要的作用，確定蛋白質與DNA的結合位點是對各種生物活動，如轉錄和修復，進行機理理解和設計新型藥物的第一步。現有的基于序列的方法只考慮了順序相鄰的上下文特征，這對捕捉空間信息是有限的。對此本文提出GraphSite，作者將結合位點預測問題轉化為圖節點分類任務，并采用基于Transformer的預訓練模型，通過AlphaFold2預測結構，將蛋白質結構信息、AlphaFold2中Evoformer的表征和序列進化信息考慮在內實現DNA結合殘基的識別。GraphSite大大改善了基于序列和結構的最新方法，并且在181種蛋白質的獨立測試集上得到進一步證實，在AUPR和MCC上分別超過了最先進的基于結構的方法16.4%和11.2%。

論文地址：「鏈接」

標題：耶魯 | Pipeline for retrieval of COVID-19 immune signatures（檢索COVID-19免疫特征的流程）

簡介：隨著生物醫學文獻出版速度的加快，檢索其中的特定的科學信息變得更有意義。在新冠流行的大背景下，有效地檢索病毒免疫特征，即生物標志物，可以幫助了解不同的SARS-CoV-2感染的免疫反應機制。對此，本文構建了一個系統的流程來識別和提取結構化的COVID-19免疫特征。具體而言，作者使用基于SPECTER預訓練的生物文本嵌入，配合SVM分類器來自動識別含有免疫特征的論文，并進一步對這些論文進行半自動查詢流程構建，檢索特征信息。此外，基于預訓練嵌入的流程也可確定免疫特征的類型，比如基因表達與其他類型的分析。通過這種方法，部分自動化的文獻挖掘可以幫助快速創建半結構化的知識庫，用于自動分析新出現的健康威脅。

論文地址：「鏈接」

資源推薦

標題：孟加拉國工程技術大學、加州大學洛杉磯分校等 | CrossSum:超越 1500 多個語言對的以英語為中心的跨語言抽象文本摘要數據集

簡介：作者提供了 CrossSum：一個包含 165 萬個跨語言文章摘要樣本、包含 45 種語言的 1500 多個語言對的大規模數據集。基于多語言 XL-Sum 數據集，并使用與語言無關的表示模型通過跨語言檢索來對齊以不同語言編寫的相同文章，作者提出了一種多階段數據采樣算法并微調多語言預訓練模型mT5。實驗結果表明在 CrossSum 上微調的模型優于摘要+翻譯基線。

論文地址：「鏈接」

資源下載：買粉絲s://github.買粉絲/csebuetnlp/CrossSum

【關于轉載】本文轉載于買粉絲“智源社區”，僅用于學術分享，有任何問題請與我們聯系：report@aminer.買粉絲

大數據開發常用的編程語言有哪些？

1、Python語言

如果你的數據科學家不使用R，他們可能就會徹底了解Python。十多年來，Python在學術界當中一直很流行，尤其是在自然語言處理（NLP）等領域。因而，如果你有一個需要NLP處理的項目，就會面臨數量多得讓人眼花繚亂的選擇，包括經典的NTLK、使用GenSim的主題建模，或者超快、準確的spaCy。同樣，說到神經網絡，Python同樣游刃有余，有Theano和Tensorflow；隨后還有面向機器學習的scikit-learn，以及面向數據分析的NumPy和Pandas。

還有Juypter/iPython――這種基于Web的筆記本服務器框架讓你可以使用一種可共享的日志格式，將代碼、圖形以及幾乎任何對象混合起來。這一直是Python的殺手級功能之一，不過這年頭，這個概念證明大有用途，以至于出現在了奉行讀取－讀取－輸出－循環（REPL）概念的幾乎所有語言上，包括Scala和R。

Python往往在大數據處理框架中得到支持，但與此同時，它往往又不是“一等公民”。比如說，Spark中的新功能幾乎總是出現在Scala/Java綁定的首位，可能需要用PySpark編寫面向那些更新版的幾個次要版本（對Spark Streaming/MLLib方面的開發工具而言尤為如此）。

與R相反，Python是一種傳統的面向對象語言，所以大多數開發人員用起來會相當得心應手，而初次接觸R或Scala會讓人心生畏懼。一個小問題就是你的代碼中需要留出正確的空白處。這將人員分成兩大陣營，一派覺得“這非常有助于確保可讀性”，另一派則認為，我們應該不需要就因為一行代碼有個字符不在適當的位置，就要迫使解釋器讓程序運行起來。

2、R語言

在過去的幾年時間中，R語言已經成為了數據科學的寵兒——數據科學現在不僅僅在書呆子一樣的統計學家中人盡皆知，而且也為華爾街交易員，生物學家，和硅谷開發者所家喻戶曉。各種行業的公司，例如Google，Facebook，美國銀行，以及紐約時報都使用R語言，R語言正在商業用途上持續蔓延和擴散。

R語言有著簡單而明顯的吸引力。使用R語言，只需要短短的幾行代碼，你就可以在復雜的數據集中篩選，通過先進的建模函數處理數據，以及創建平整的圖形來代表數字。它被比喻為是Excel的一個極度活躍版本。

R語言最偉大的資本是已圍繞它開發的充滿活力的生態系統：R語言社區總是在不斷地添加新的軟件包和功能到它已經相當豐富的功能集中。據估計，超過200萬的人使用R語言，并且最近的一次投票表明，R語言是迄今為止在科學數據中最流行的語言，被61%的受訪者使用(其次是Python，39%)。

3、JAVA

Java，以及基于Java的框架，被發現儼然成為了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter，LinkedIn和Facebook，那么你會發現，Java是它們所有數據工程基礎設施的基礎語言，”Dris買粉絲ll說。

Java不能提供R和Python同樣質量的可視化，并且它并非統計建模的最佳選擇。但是，如果你移動到過去的原型制作并需要建立大型系統，那么Java往往是你的最佳選擇。

4、Hadoop和Hive

一群基于Java的工具被開發出來以滿足數據處理的巨大需求。Hadoop作為首選的基于Java的框架用于批處理數據已經點燃了大家的熱情。Hadoop比其他一些處理工具慢，但它出奇的準確，因此被廣泛用于后端分析。它和Hive——一個基于查詢并且運行在頂部的框架可以很好地結對工作。

很赞哦!（6）

上一篇： 02 注冊國際貿易有限公司可以加煤炭公司嗎(中國燃料總公司是國企嗎)

下一篇：高壓油管品牌排行(鎖鉗式高壓黃油嘴什么牌子好)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业：程序员，设计师

现居：青海玉树玉树县

工作室：小组

Email：[email protected]

您现在的位置是：Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >

facebook語言模型(《預訓練周刊》第33期：預訓練語言模型的高效分層域適應)

facebook貼子搜索不到了怎么回事？

Meta 開源了語言翻譯 AI 模型

淺談中文分詞與自然語言處理

《預訓練周刊》第33期：預訓練語言模型的高效分層域適應

大數據開發常用的編程語言有哪些？

相关文章

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

热门文章

站长推荐

友情链接