您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 > 

facebook ai research(一文看盡2018全年AI技術大突破:NLP跨過分水嶺、CV研究效果驚人)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-01 03:49:57【】4人已围观

简介何愷明人物介紹何愷明何愷明,本科就讀于清華大學,博士畢業于香港中文大學多媒體實驗室。2011年加入微軟亞洲研究院(MSRA)工作,主要研究計算機視覺和深度學習。2016年,加入FacebookAIRe

何愷明人物介紹

何愷明

何愷明,本科就讀于清華大學,博士畢業于香港中文大學多媒體實驗室。

2011年加入微軟亞洲研究院(MSRA)工作,主要研究計算機視覺和深度學習。2016年,加入FacebookAIResearch(FAIR)擔任研究科學家。

2020年1月11日,榮登AI全球最具影響力學者榜單。

中文名:何愷明

出生地:廣州

職業:研究員

畢業院校:香港中文大學

主要成就:首獲CVPR“最佳論文獎”的中國學者

主要成就:ImageNet圖像識別大賽第一

CVPR2009,CVPR2016和ICCV2017(MarrPrize)的最佳論文獎

香港中文大學(中大)工程學院杰出校友

PAMI年輕學者獎

代表作品:深度殘余網絡(ResNets)

人物簡介

何愷明從小在廣州長大,在廣州執信中學就讀時獲得過全國物理競賽和省化學競賽的一等獎。

2003年5月,何愷明拿到保送清華的資格,是當年執信中學唯一保送上清華大學的學生;高考結果出爐以后,何愷明獲得滿分900分的成績,成為當年廣東省9位滿分狀元之一。

2003年9月,何愷明進入清華大學以后,放棄了原本保送的機械工程及其自動化專業,轉而選擇基礎科學班。

2007年,還未畢業的何愷明進入微軟亞洲研究院(MSRA)實習,出于對計算機圖形圖像課程的興趣,他選擇加入MSRA視覺計算組,其實習導師是孫劍。而當時MSRA視覺計算組負責人是湯曉鷗。

2011年,何愷明博士畢業于香港中文大學多媒體實驗室,研究生導師為湯曉鷗。

博士畢業后,何愷明正式加入微軟亞洲研究院工作。

2016年8月,何愷明離開微軟亞洲研究院,加入FacebookAI研究院(FAIR)。

何愷明與他的同事開發了深度殘余網絡(ResNets),目前是計算機視覺領域的流行架構。ResNet也被用于機器翻譯、語音合成、語音識別和AlphaGo的研發上。

主要成就

2009年,何愷明成為首獲計算機視覺領域三大國際會議之一CVPR“最佳論文獎”的中國學者。

在2015年的ImageNet圖像識別大賽中,何愷明和他的團隊用“圖像識別深度差殘學習”系統,擊敗谷歌、英特爾、高通等業界團隊,榮獲第一。

何愷明作為第一作者獲得了CVPR2009,CVPR2016和ICCV2017(MarrPrize)的最佳論文獎,并獲得了ICCV2017最佳學生論文獎。

2017年4月,何愷明獲選香港中文大學(中大)工程學院杰出校友。

2018年,第31屆計算機視覺和模式識別大會(ConferenceonComputerVisionandPatternRe買粉絲gnition,CVPR)在美國鹽湖城召開,何愷明獲得本屆大會的PAMI年輕學者獎。

入門| 文本摘要自動生成技術的前世今生

當我們點開某個網站或新聞APP時,經常能看到這樣的標題:“14億人都不知道的真相,歷史的血淚……”、“刪前速看!XXX視頻流出”等,但是點進頁面時往往會發現,都是標題黨!而時間和流量卻在悄悄溜走。

如果這時候有方法能夠先閱讀新聞,再提煉出關鍵內容,那么將大大節約時間并精準地找到我們需要的內容。而這就是圖鴨君此次會介紹的技術—— “文本摘要自動生成”技術!

文本摘要充斥著我們生活的方方面面,從新聞關鍵詞的提煉到Google、百度等搜索引擎的結果優化,真正實現搜索中的所見即所得,“Smarter & Faster”。

主流的文本摘要方式

目前主流的文本摘要自動生成有兩種方式,一種是抽取式(extractive),另一種是生成式(abstractive)。

抽取式顧名思義,就是按照一定權重,從原文中尋找跟中心思想最接近的一條或幾條句子。而生成式是計算機通讀原文,在理解整篇文章意思的基礎上,重新生成概要。

抽取式摘要目前已經相對成熟,但抽取質量及內容流暢度均差強人意。伴隨著深度學習的研究,生成式摘要對質量和流暢度都有很大的提升,但目前也涉及到原文本長度過長、抽取內容不佳等問題的限制。

文本摘要的發展概況

抽取式摘要是一種比較成熟的方案,其中Text rank排序算法以其簡潔、高效的特點被工業界廣泛運用。大體思想就是先去除文章中的一些停用詞,之后對句子的相似度進行度量,計算每一句相對另一句的相似度得分,迭代傳播,直到誤差小于0.0001,再對上述方法得到的關鍵語句進行排序,即可獲得摘要。抽取式摘要主要考慮單詞詞頻,并沒有過多的語義信息,像“豬八戒”、“孫悟空”這樣的詞匯都會被獨立對待,無法建立文本段落中完整的語義信息。

生成式文本摘要主要依靠深度神經網絡結構實現,2014年由Goolge Brain團隊提出的Sequence-to-Sequence序列,開啟了NLP中端到端網絡的火熱研究。Sequence-to-Sequence又稱為編、解碼器(En買粉絲der、De買粉絲der)架構。其中En買粉絲der、De買粉絲der均由數層RNN/LSTM構成,En買粉絲der負責把原文編碼為一個向量C;De買粉絲de負責從向量C中提取提取信息,獲取語義,生成文本摘要。

但是由于“長距離依賴”問題的存在,RNN到最后一個時間步輸入單詞時,已經丟失了相當一部分信息。此時編碼生成的語義向量C同樣也丟失了大量信息,就可能導致生成摘要準確性不足。

Bahdanau等人在14年發表的論文《Neural Machine Translation by Jointly Learning to Align and Translate》中,第一次將Attention機制應用于NLP中。Attention機制是一種注意力(資源)分配機制,在某個特定時刻,總是特地關注跟它相關的內容,其他內容則進行選擇性忽視。就像下圖,在翻譯“Knowledge”時,只會關注“知識”,這樣的對齊能讓文本翻譯或者摘要生成更具針對性。

RNN/LSTM單元下每個詞是按照順序輸入網絡的,會記錄文章的序列信息,所以大多數NLP任務,都是采用的RNN架構。但是這種架構限制了網絡訓練及摘要生成的速度,因為RNN必須一個個輸入、一個個生成,無法進行并行計算。2016年Facebook AI Research(FAIR)發表了《A Convolutional En買粉絲der Model for Neural Machine Translation》,對En買粉絲der部分采用似乎不擅長處理序列信息的卷積網絡(CNN)來實現,結果在翻譯、摘要任務中,也達到了當年的最高水準;

2017年5月,還是FAIR,發布了《Convolutional Sequence to Sequence Learning》,第一次實現En買粉絲der、De買粉絲der均采用CNN單元,使網絡在訓練階段能夠并行計算,效率進一步提升。同時引入了Multi-step Attention,相比于之前只在最后一層生成翻譯時往回看,多跳注意(Multi-step Attentio)的優化點在于De買粉絲der階段生成每一層的語義向量時都會往回看,進而提升了準確度。同時還有一些其他的trick:像引入單詞的位置信息、殘差網絡、計算Attention時對高層語義信息和低層細節信息兼收并取等。最后在生成翻譯和摘要時,速度相比之前最快的網絡,提升了近9倍!同時在WMT-14英德、英法兩項的單模型訓練結果中,BLEU得分達到了25.16、40.46,英法翻譯任務也是迄今為止得分最高的模型。

時隔一個月,17年6月,Google團隊發布了名為《Attention Is All You Need》的文章,即不用CNN和RNN單元,只用Self-Attention和En買粉絲der-De買粉絲der Attention,就完全實現了端到端的翻譯任務,也是在WMT-14英德、英法翻譯任務中,BLEU值達到了28.4和41.0的高分,因為同樣可以并行計算,模型的訓練及生成速度也有所提升。Self-Attention相比于之前的模型更加關注句子的內部結構,也就是word-pairs的信息,附圖是是論文中Attention可視化的結果,可以發現僅在源文端,模型便學習到了“making more difficult”的word-pairs信息。

同理對目標端,模型也會單獨學習句子的內部結構信息。之后利用En買粉絲der-De買粉絲der Attention建立源文和目標詞組、句子的對應關系。相比于FAIR 的卷積模型得到很高層才能看到句子的完整信息,Self-Attention在第一層便巧妙地建立了每個詞和整個句子的聯系,同時位置編碼采用三角函數的相對位置法表示,理論上可以泛化到訓練中未見過的更長長度句子的翻譯中。目前Self-Attention僅用在了翻譯任務中,但這樣的思想,在文本摘要自動生成的任務中,也是可以參照的。

總結:

從傳統的Text rank抽取式,到深度學習中采用RNN、CNN單元處理,再引入Attention、Self-Attention機器生成摘要的方式,這一步步的轉化使得文本摘要生成的方式跟人類思維越來越像,先理解后提取概要。與此同時生成的摘要效果,也常常讓我們驚艷。

但文本摘要自動生成依然還有很多難題,如段落太長,那機器對于段落的理解時間就會更長,而過長的時間會導致機器對于段落信息的記憶損失;而深度學習非常依賴有標簽的樣本,標注工作也會是一筆非常大的開銷等等,這些都是需要大家去解決與克服的問題。

簡而言之,文本摘要自動生成技術是一項非常具有前景但也是極具挑戰性的技術。

現在人工智能發展到什么程度了?

2017-11-30請點藍字>慎思行慎思行

文章來源中國人工智能學會,羅蘭貝格公司

個人買粉絲 helloSSX

人工智能概念介紹

人工智能是什么?人工智能是一門利用計算機模擬人類智能行為科學的統稱,它涵蓋了訓練計算機使其能夠完成自主學習、判斷、決策等人類行為的范疇。人工智能、機器學習、深度學習是我們經常聽到的三個熱詞。關于三者的關系,簡單來說:機器學習是實現人工智能的一種方法,深度學習是實現機器學習的一種技術。機器學習使計算機能夠自動解析數據、從中學習,然后對真實世界中的事件做出決策和預測;深度學習是利用一系列“深層次”的神經網絡模型來解決更復雜問題的技術。

人工智能從其應用范圍上又可分為專用人工智能(ANI)與通用人工智能(AGI)。專用人工智能,即在某一個特定領域應用的人工智能,比如會下圍棋并且也僅僅會下圍棋的AlphaGo;通用人工智能是指具備知識技能遷移能力,可以快速學習,充分利用已掌握的技能來解決新問題、達到甚至超過人類智慧的人工智能。

通用人工智能是眾多科幻作品中顛覆人類社會的人工智能形象,但在理論領域,通用人工智能算法還沒有真正的突破,在可見的未來,通用人工智能既非人工智能討論的主流,也還看不到其成為現實的技術路徑。專用人工智能才是真正在這次人工智能浪潮中起到影響的主角。我們的討論范圍將聚焦在更具有現實應用意義的專用人工智能技術,具體討論現有專用人工智能技術能帶來的商業價值。

人工智能發展歷史與現狀

人工智能的發展歷史

人工智能的概念形成于20世紀50年代,其發展階段經歷了三次大的浪潮。第一次是50-60年代注重邏輯推理的機器翻譯時代;第二次是70-80年代依托知識積累構建模型的專家系統時代;這一次是2006年起開始的重視數據、自主學習的認知智能時代。在數據、算法和計算力條件成熟的條件下,本次浪潮中的人工智能開始真正解決問題,切實創造經濟效果。

本次人工智能浪潮的驅動因素

近年來,人工智能應用領域市場規模、人工智能領域的資金投入都迅速增長,反映了社會與市場整體對其認知程度與信心的高漲。驅動認知程度提高的一方面因素是技術本身的提高,包括數據、算法、算力,使得人工智能技術真正為商業應用創造了價值;另一方面,大數據、物聯網、云計算等技術為人工智能的發展打下了良好基礎。

高質量、大規模的大數據成為可能。1986—2007年,全球單日信息交換量增長了約220倍,全球信息儲存能力增加了約120倍。海量數據為人工智能技術的發展提供了充足的原材料。

計算力提升突破瓶頸:以GPU為代表的新一代計算芯片提供了更強大的計算力,使得運算更快,同時在集群上實現的分布式計算幫助人工智能模型可以在更大的數據集上運行。

機器學習算法取得重大突破:以多層神經網絡模型為基礎的算法,使得機器學習算法在圖像識別等領域的準確性取得了飛躍性的提高。

社會理解與接受程度廣泛提升:隨著社會信息化及互聯網/移動互聯網的普及,以及受AlphaGo等大量熱點輿論事件影響,全社會對人工智能的態度已逐漸從懷疑、恐懼轉變為好奇、接受和認同。

物聯網、大數據、云計算技術提供了人工智能的發展基礎

物聯網、大數據、云計算技術為人工智能技術的發展提供了其所需要的關鍵要素。物聯網為人工智能的感知層提供了基礎設施環境,同時帶來了多維度、及時全面的海量訓練數據。大數據技術為輸入數據在儲存、清洗、整合方面做出了貢獻,幫助提升了深度學習算法的性能。云計算的大規模并行和分布式計算能力帶來了低成本、高效率的計算力,并降低了計算成本。

人工智能產業發展狀況

技術方向方面

人工智能方向的企業目前主要分為兩類:專注于技術研發的通用型人工智能企業,如DeepMind、 Facebook AI Research、Google Brain與Bai AI等,以及專注于人工智能技術應用的專用型人工智能企業。通用型人工智能由于研發技術難度大,目前多由巨頭互聯網公司在進行布局,短期內沒有明確的技術突破前景。專用型人工智能企業數量眾多,但其發展仍然受制于需要人工標注的數據限制。

應用方向方面

從應用方向上來看,金融、醫療、汽車、零售等數據基礎較好的行業方向應用場景目前相對成熟,相關方向企業的融資熱度也較高。以自動駕駛領域為例,谷歌、百度、特斯拉、奧迪等科技和傳統巨頭紛紛加入;人工智能在金融領域的智能風控、智能投顧、市場預測、信用評級等領域都有了成功的應用;在醫療領域,人工智能算法被應用到新藥研制,提供輔助診療、癌癥檢測等方面都有突破性進展,凡此種種,不一而足。

地域發展方面

縱觀全球人工智能產業的發展,我們可以發現:全球領先的創新高點散落在各個國家,如美國紐約與硅谷、英國倫敦、以色列,以及中國的北京、上海與深圳。人工智能技術本身具有高流通、易傳導的性質,在全球信息流通開放的大環境下,人工智能的發展不再受限于國家或地域。

借助于良好的人才基礎、巨大的應用市場、強有力的風投基金支持,中國人工智能企業的發展勢頭良好,在全球處在優勢領先地位。中國的人工智能企業數量、專利申請數量以及融資規模均僅次于美國,位列全球第二。在國內,計算機視覺、服務機器人、自然語言處理方向的人工智能企業占據了人工智能企業個數的一半以上。北京、上海、深圳作為國內人工智能創新的高地,其相關企業數量占據了國內企業總數的近80%。

人工智能未來發展的預測

我們認為,短期內構建大型的數據集將會是各企業與研究機構發展的重要方向。同時,機器學習技術會更注重遷移學習與小樣本學習等方向,近期AlphaGo Zero在無監督模式下取得的驚人進步充分體現了此方向的熱度。長期來看,通用型人工智能的發展將依賴于對人腦認知機制的科學研究,其發展前景目前尚處于無法預測的狀態。

編輯 Yibin.P

推薦閱讀

yann lecun是中國人嗎

不是,至少他本人不是,只是他的名字看起來有點像漢族

他是法國人,出生在巴黎附近,就讀于居里大學

當然我們可以根據他的名字推測其祖輩可能是來自中國,但是并沒有確鑿證據,而且他的長相看不出來東方血統

圖像簡史——程序員眼中的圖像發展史

人,是感官的動物。

我們的大腦,像一塊復雜度極高的CPU,每天在接收著各種格式的數據,進行著無休止的計算。我們以各種感官接觸著這個世界,抽取著不同感官下的信息,從而認知了世界。而圖像作為承載信息最為豐富的一種媒介,在人類探索智慧的歷史中,一直占據著重要的位置。人用這樣一雙肉眼如何識別不同類別的圖像(image classification and pattern re買粉絲gnition),如何在圖像中分割出形形色色的物體(semantic segmentation and object detection),如何從模糊的圖像中想象出物體的輪廓(image super-resolution),如何創作出天馬行空的圖畫(image synthesis),都是目前 機器視覺圖像處理領域 關注的熱點問題。全世界的研究者都希望有朝一日,計算機能代替人眼來識別這一幅幅圖像,發現在圖像中隱藏的密碼。

圖像分類是圖像處理中的一個重要任務 。在傳統機器學習領域,去識別分類一個一個圖像的標準流程是特征提取、特征篩選,最后將特征向量輸入合適的分類器完成特征分類。直到2012年Alex Krizhevsky突破性的提出AlexNet的網絡結構, 借助深度學習的算法,將圖像特征的提取、篩選和分類三個模塊集成于一體 ,設計5層卷積層加3層全連接層的深度卷積神經網絡結構,逐層對圖像信息進行不同方向的挖掘提取,譬如淺層卷積通常獲取的是圖像邊緣等通用特征,深層卷積獲取的一般是特定數據集的特定分布特征。AlexNet以15.4%的創紀錄低失誤率奪得2012年ILSVRC(ImageNet大規模視覺識別挑戰賽)的年度冠軍,值得一提的是當年亞軍得主的錯誤率為26.2%。 AlexNet超越傳統機器學習的完美一役被公認為是深度學習領域里程碑式的歷史事件,一舉吹響了深度學習在計算機領域爆炸發展的號角 。

時間轉眼來到了2014年,GoogleNet橫空出世,此時的深度學習,已經歷ZF-買粉絲,VGG-買粉絲的進一步精煉,在網絡的深度,卷積核的尺寸,反向傳播中梯度消失問題等技術細節部分已有了詳細的討論,Google在這些技術基礎上引入了Inception單元,大破了傳統深度神經網絡各計算單元之間依次排列,即卷積層->激活層->池化層->下一卷積層的范式,將ImageNet分類錯誤率提高到了6.7%的高水平。

在網絡越來越深,網絡結構越來越復雜的趨勢下,深度神經網絡的訓練越來越難,2015年Microsoft大神何愷明(現就職于Facebook AI Research)為了解決訓練中準確率先飽和后降低的問題,將resial learning的概念引入深度學習領域,其核心思想是當神經網絡在某一層達到飽和時,利用接下來的所有層去映射一個f(x)=x的函數,由于激活層中非線性部分的存在,這一目標幾乎是不可能實現的。

但ResNet中,將一部分卷積層短接,則當訓練飽和時,接下來的所有層的目標變成了映射一個f(x)=0的函數,為了達到這一目標,只需要訓練過程中,各訓練變量值收斂至0即可。Resdiual learning的出現,加深網絡深度提高模型表現的前提下保證了網絡訓練的穩定性。2015年,ResNet也以3.6%的超低錯誤率獲得了2015年ImageNet挑戰賽的冠軍,這一技術也超越了人類的平均識別水平,意味著人工智能在人類舞臺中崛起的開始。

圖像分類任務的實現可以讓我們粗略的知道圖像中包含了什么類型的物體,但并不知道物體在圖像中哪一個位置,也不知道物體的具體信息,在一些具體的應用場景比如車牌識別、交通違章檢測、人臉識別、運動捕捉,單純的圖像分類就不能完全滿足我們的需求了。

這時候,需要引入圖像領域另一個重要任務: 物體的檢測與識別 。在傳統機器領域,一個典型的案例是利用HOG(Histogram of Gradient)特征來生成各種物體相應的“濾波器”, HOG濾波器 能完整的記錄物體的邊緣和輪廓信息,利用這一濾波器過濾不同圖片的不同位置,當輸出響應值幅度超過一定閾值,就認為濾波器和圖片中的物體匹配程度較高,從而完成了物體的檢測。這一項工作由Pedro F. Felzenszalb,Ross B. Girshick,David Mcallester還有Deva Ramanan以Object Detection with Discriminatively Trained Part-Based Models共同發表在2010年9月的IEEE Transactions on Pattern Analysis and Machine Interlligence期刊上。

時間如白駒過隙,驚鴻一瞥,四年過去,Ross B. Girishick已由當年站在巨人肩膀上的IEEE Student Member成長為了AI行業內獨當一面的神級人物,繼承了深度學習先驅的意志,在2014年CVPR會議上發表題為Rich Feature Hirarchies for Accurate Object Detection and Semantic Segmentation文章。RCNN,一時無兩,天下皆知。

RCNN 的核心思想在于將一個物體檢測任務轉化為分類任務 ,RCNN的輸入為一系列利用selective search算法從圖像中抽取的圖像塊,我們稱之為region proposal。經過warping處理,region proposals被標準化到相同的尺寸大小,輸入到預先訓練好并精細調參的卷積神經網絡中,提取CNN特征。得到了每一個proposal的CNN特征后,針對每一個物體類別,訓練一個二分類器,判斷該proposal是否屬于該物體類別。2015年,為了縮短提取每一個proposal的CNN特征的時間,Girishick借鑒了Spatial Pooling Pyramid Network(SPP買粉絲)中的pooling技術,首先利用一整幅圖像提取CNN特征圖譜,再在這張特征圖譜上截取不同的位置的proposal,從而得到不同尺寸的feature proposals,最后將這些feature proposals通過SPP買粉絲標準化到相同的尺寸,進行分類。這種改進,解決了RCNN中每一個proposal都需要進行CNN特征抽取的弊端,一次性在整圖上完成特征提取,極大的縮短了模型的運行時間,因而被稱作“Fast R-CNN”,同名文章發表于ICCV 2015會議。

2015年,Girishick大神持續發力,定義RPN(region-proposal-買粉絲work)層,取代傳統的region proposal截取算法,將region proposal的截取嵌入深度神經網絡中,進一步提高了fast R-CNN的模型效率,因而被稱作“Faster R-CNN”,在NIPS2015上Girishick發表了題為“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”的關鍵文章,完成了RCNN研究領域的三級跳壯舉。

隨著時代的發展, 科學家們不僅僅是技術的研究者,更是藝術的創造者 。

在人工智能領域的另一位新一代靈魂人物,Ian Goodfellow在2014年提出了Generative Adversarial Net的概念,通過定義一個生成器(generator)和一個判別器(discriminator)來完成圖像生成任務。其原理在于生成器的任務是從隨機噪聲中“創造”出接近目標圖像的“假圖像”去欺騙判別器,而判別器的任務是去甄別哪一些圖像是來自于真實的數據集,哪一些圖像是來自于生成器,在生成器和判別器的互相對抗中,通過合理的損失函數設計完成訓練,最終模型收斂后,判別器的概率輸出為常數0.5,即一幅圖像來自于生成器和真實數據集的概率相同,生成器生成的圖像的概率分布無限趨近于真實數據集。

GAN技術成為2015,2016年深度學習研究的熱門領域,在圖像恢復、降噪、超分辨重建等方向獲得了極佳的表現,衍生出一系列諸如WGAN,Info-GAN,DCGAN,Conditional-GAN等技術,引領了一波風潮。

當我們把一幀幀圖像串聯在一起,變成流動的光影,我們研究的問題就從空間維度上擴展到了時間維度,我們不僅需要關心物體在圖像中的位置、類別、輪廓形狀、語義信息,我們更要關心圖像幀與幀之間的時間關系,去捕捉、識別一個物體的運動,去提取視頻的摘要,去分析視頻所表達的含義,去考慮除了圖像之外的聲音、文本標注,去處理一系列的自然語言,我們的研究一步一步,邁向了更廣闊的星辰與大海。

圖像和視頻,都是虛擬的一串串數字,一個個字節,但卻讓這個世界更加真實 。

一文看盡2018全年AI技術大突破:NLP跨過分水嶺、CV研究效果驚人

量子位 出品 | 買粉絲 QbitAI

2018,仍是AI領域激動人心的一年。

這一年成為NLP研究的分水嶺,各種突破接連不斷;CV領域同樣精彩紛呈,與四年前相比GAN生成的假臉逼真到讓人不敢相信;新工具、新框架的出現,也讓這個領域的明天特別讓人期待……近日,Analytics Vidhya發布了一份2018人工智能技術總結與2019趨勢預測報告,原文作者PRANAV DAR。量子位在保留這個報告架構的基礎上,對內容進行了重新編輯和補充。這份報告總結和梳理了全年主要AI技術領域的重大進展,同時也給出了相關的資源地址,以便大家更好的使用、查詢。報告共涉及了五個主要部分:

下面,我們就逐一來盤點和展望,嘿喂狗~

2018年在NLP 歷史 上的特殊地位,已經毋庸置疑。

這份報告認為,這一年正是NLP的分水嶺。2018年里,NLP領域的突破接連不斷:ULMFiT、ELMo、最近大熱的BERT……

遷移學習成了NLP進展的重要推動力。從一個預訓練模型開始,不斷去適應新的數據,帶來了無盡的潛力,甚至有“NLP領域的ImageNet時代已經到來”一說。

正是這篇論文,打響了今年NLP遷移學習狂歡的第一槍。論文兩名作者一是Fast.ai創始人Jeremy Howard,在遷移學習上經驗豐富;一是自然語言處理方向的博士生Sebastian Ruder,他的NLP博客幾乎所有同行都在讀。兩個人的專長綜合起來,就有了ULMFiT。想要搞定一項NLP任務,不再需要從0開始訓練模型,拿來ULMFiT,用少量數據微調一下,它就可以在新任務上實現更好的性能。

他們的方法,在六項文本分類任務上超越了之前最先進的模型。詳細的說明可以讀他們的論文:買粉絲s://arxiv.org/abs/1801.06146Fast.ai網站上放出了訓練腳本、模型等:買粉絲://nlp.fast.ai/category/classification.買粉絲

這個名字,當然不是指《芝麻街》里那個角色,而是“語言模型的詞嵌入”,出自艾倫人工智能研究院和華盛頓大學的論文Deep 買粉絲ntextualized word representations,NLP頂會NAACL HLT 2018的優秀論文之一。

ELMo用語言模型(language model)來獲取詞嵌入,同時也把詞語所處句、段的語境考慮進來。

這種語境化的詞語表示,能夠體現一個詞在語法語義用法上的復雜特征,也能體現它在不同語境下如何變化。

當然,ELMo也在試驗中展示出了強大功效。把ELMo用到已有的NLP模型上,能夠帶來各種任務上的性能提升。比如在機器問答數據集SQuAD上,用ELMo能讓此前最厲害的模型成績在提高4.7個百分點。

買粉絲s://allennlp.org/elmo

它由Google推出,全稱是 B idirectional E n買粉絲der R epresentations from T ransformers,意思是來自Transformer的雙向編碼器表示,也是一種預訓練語言表示的方法。從性能上來看,沒有哪個模型能與BERT一戰。它在11項NLP任務上都取得了最頂尖成績,到現在,SQuAD 2.0前10名只有一個不是BERT變體:

如果你還沒有讀過BERT的論文,真的應該在2018年結束前補完這一課:買粉絲s://arxiv.org/abs/1810.04805另外,Google官方開源了訓練代碼和預訓練模型:買粉絲s://github.買粉絲/google-research/bert如果你是PyTorch黨,也不怕。這里還有官方推薦的PyTorch重實現和轉換腳本:買粉絲s://github.買粉絲/huggingface/pytorch-pretrained-BERT

BERT之后,NLP圈在2018年還能收獲什么驚喜?答案是,一款新工具。

就在上周末,Facebook開源了自家工程師們一直在用的NLP建模框架PyText。這個框架,每天要為Facebook旗下各種應用處理超過10億次NLP任務,是一個工業級的工具包。

(Facebook開源新NLP框架:簡化部署流程,大規模應用也OK)

PyText基于PyTorch,能夠加速從研究到應用的進度,從模型的研究到完整實施只需要幾天時間。框架里還包含了一些預訓練模型,可以直接拿來處理文本分類、序列標注等任務。

想試試?開源地址在此:

買粉絲s://github.買粉絲/facebookresearch/pytext

它能主動打電話給美發店、餐館預約服務,全程流暢交流,簡直以假亂真。Google董事長John Hennessy后來稱之為“非凡的突破”,還說:“在預約領域,這個AI已經通過了圖靈測試。”Duplex在多輪對話中表現出的理解能力、合成語音的自然程度,都是NLP目前水平的體現。如果你還沒看過它的視頻……

NLP在2019年會怎么樣?我們借用一下ULMFiT作者Sebastian Ruder的展望:

今年9月,當搭載BigGAN的雙盲評審中的ICLR 2019論文現身,行家們就沸騰了: 簡直看不出這是GAN自己生成的 。

在計算機圖像研究史上,BigGAN的效果比前人進步了一大截。比如在ImageNet上進行128×128分辨率的訓練后,它的Inception S買粉絲re(IS)得分166.3,是之前最佳得分52.52分 3倍 。

除了搞定128×128小圖之外,BigGAN還能直接在256×256、512×512的ImageNet數據上訓練,生成更讓人信服的樣本。

在論文中研究人員揭秘,BigGAN的驚人效果背后,真的付出了金錢的代價,最多要用512個TPU訓練,費用可達11萬美元,合人民幣76萬元。

不止是模型參數多,訓練規模也是有GAN以來最大的。它的參數是前人的2-4倍,批次大小是前人的8倍。

研究論文:買粉絲s://openreview.買粉絲/pdf?id=B1xsqj09Fm

前前后后,Fast.ai團隊只用了16個AWS云實例,每個實例搭載8塊英偉達V100 GPU,結果比Google用TPU Pod在斯坦福DAWNBench測試上達到的速度還要快40%。這樣拔群的成績,成本價只需要 40美元 ,Fast.ai在博客中將其稱作人人可實現。

相關地址: Fast.ai博客介紹:

今年8月,英偉達和MIT的研究團隊高出一個 超逼真 高清視頻生成AI。

只要一幅動態的語義地圖,就可獲得和真實世界幾乎一模一樣的視頻。換句話說,只要把你心中的場景勾勒出來,無需實拍,電影級的視頻就可以自動P出來:

除了街景,人臉也可生成:

這背后的vid2vid技術,是一種在生成對抗性學習框架下的新方法:精心設計的生成器和鑒別器架構,再加上時空對抗目標。

這種方法可以在分割蒙版、素描草圖、人體姿勢等多種輸入格式上,實現高分辨率、逼真、時間相干的視頻效果。

好消息,vid2vid現已被英偉達開源。

研究論文:買粉絲s://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址買粉絲s://github.買粉絲/NVIDIA/vid2vid

相關地址

相關地址

很赞哦!(998)

Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片

职业:程序员,设计师

现居:贵州遵义余庆县

工作室:小组

Email:[email protected]