日本强好片久久久久久AAA_色综合久久天天综合观看_久久精品国产亚洲av日韩_久久久久一级片

支持中文和更多語(yǔ)言的 NLP 預(yù)訓(xùn)練技術(shù)你會(huì)使用嗎?

缺少訓(xùn)練數(shù)據(jù)是自然語(yǔ)言處理(Natural Language Processing, NLP)面臨的最大挑戰(zhàn)之一。由于 NLP 是一個(gè)具備不同任務(wù)的多樣化領(lǐng)域,因此大多數(shù)任務(wù)特定數(shù)據(jù)集僅包含幾千或幾十萬(wàn)個(gè)人類(lèi)標(biāo)簽的訓(xùn)練樣例。然而,基于深度學(xué)習(xí)的 NLP 模型可以從更大量的數(shù)據(jù)中獲益,在數(shù)百萬(wàn)或數(shù)十億的帶標(biāo)簽的訓(xùn)練樣例中學(xué)習(xí)得到改善。為了幫助縮小在數(shù)據(jù)方面的差距,研究人員開(kāi)發(fā)了各種技術(shù),使用網(wǎng)絡(luò)上無(wú)標(biāo)簽的文本訓(xùn)練一個(gè)通用的語(yǔ)言表示模型(稱(chēng)為預(yù)訓(xùn)練)。用預(yù)訓(xùn)練模型在小數(shù)據(jù)的 NLP 任務(wù)(如問(wèn)答和情感分析)上進(jìn)行微調(diào),與從頭開(kāi)始訓(xùn)練相比,可以顯著提高準(zhǔn)確度。

 

本周我們開(kāi)源了一種 NLP 預(yù)訓(xùn)練新技術(shù) Bidirectional Encoder Representations from Transformers(BERT)(https://github.com/google-research/bert)。此次發(fā)布的版本中,世界上任何人都可以在一個(gè)云 TPU 上花費(fèi)大約 30 分鐘,或使用單個(gè) GPU 在幾個(gè)小時(shí)內(nèi)訓(xùn)練他們自己最先進(jìn)的問(wèn)答系統(tǒng)(或各種其他模型)。該版本包括在 TensorFlow 之上構(gòu)建的源代碼和許多預(yù)先訓(xùn)練的語(yǔ)言表示模型。在我們的相關(guān)論文中,展示了包括斯坦福問(wèn)答數(shù)據(jù)集(SQUAD v1.1)在內(nèi) 11 個(gè) NLP 任務(wù)的最新結(jié)果。


是什么讓 BERT 與眾不同?

BERT 建立在最新的預(yù)訓(xùn)練與上下文相關(guān)的語(yǔ)言表示的工作之上 — 包括 Semi-supervised Sequence Learning、Generative Pre-Training、ELMo 和 ULMFit。然而,與以前的模型不同,BERT 是第一個(gè)深度、雙向、無(wú)監(jiān)督的語(yǔ)言表示模型,僅使用無(wú)標(biāo)簽的文本語(yǔ)料庫(kù)(在本例中為維基百科)進(jìn)行預(yù)訓(xùn)練。

 

為什么這很重要?預(yù)訓(xùn)練表示可以是與上下文無(wú)關(guān)的或與上下文相關(guān)的。與上下文相關(guān)的表示又可以分成單向(只跟上文或下文相關(guān))或雙向的 (同時(shí)考慮上文和下文)。與上下文無(wú)關(guān)模型諸如 word2vec 或 GloVe 之類(lèi)的對(duì)每個(gè)單詞生成一個(gè)詞嵌入表示,所以在這些模型下 “bank”  一詞在 “bank account” 和 “bank of the river” 中會(huì)具有相同的表示。而與上下文相關(guān)模型則基于句子中其他單詞來(lái)生成每個(gè)詞的表示。例如,在句子 “I accessed the bank account” 中,一個(gè)單向的上下文相關(guān)模型表示 “bank” 會(huì)基于上文 “I accessed the” 而非下文 “account”。 然而,BERT 表示 “bank” 會(huì)同時(shí)使用它的 上文 和 下文 — “I accessed the ... account” — 從深層神經(jīng)網(wǎng)絡(luò)的最底層開(kāi)始,成為雙向的表示。

 

與先前工作中領(lǐng)先的上下文預(yù)訓(xùn)練方法相比,BERT 神經(jīng)網(wǎng)絡(luò)架構(gòu)的示意圖如下所示。箭頭表示從一個(gè)層到下一個(gè)層的信息流。圖示中頂部的綠色框?qū)?yīng)每個(gè)輸入詞最終的上下文表示:

支持中文和更多語(yǔ)言的 NLP 預(yù)訓(xùn)練技術(shù)你會(huì)使用嗎?


雙向的力量

如果雙向如此強(qiáng)大,為什么以前沒(méi)有這樣實(shí)現(xiàn)?在訓(xùn)練單向模型時(shí),預(yù)測(cè)詞時(shí)必須只能基于句子中上文的單詞。然而,想要直接讓模型同時(shí)根據(jù)上文和下文來(lái)預(yù)測(cè)詞是不可能的,因?yàn)檫@將允許被預(yù)測(cè)的單詞會(huì)隨著多層模型間接地 “看見(jiàn)自己”。

 

為了解決這個(gè)問(wèn)題,我們使用直接的蒙版技術(shù)來(lái)掩蓋輸入中的一些單詞,然后模型就能同時(shí)根據(jù)上文和下文來(lái)預(yù)測(cè)被掩蓋的單詞。例如:


雖然這個(gè)想法由來(lái)已久,但是 BERT 首次把它成功應(yīng)用到預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)中。

 

BERT 還學(xué)習(xí)如何建模句子之間的 關(guān)系,通過(guò)預(yù)訓(xùn)練對(duì)任何文本語(yǔ)料庫(kù)都可生成的一個(gè)很簡(jiǎn)單的任務(wù)來(lái)實(shí)現(xiàn):給定兩個(gè)句子 A 和 B,判斷 B 是在語(yǔ)料庫(kù)中 A 之后實(shí)際出現(xiàn)的下一個(gè)句子,或者只是一個(gè)隨意的句子?例如:


使用云 TPU 進(jìn)行訓(xùn)練

到目前為止,我們所描述的所有內(nèi)容看起來(lái)都相當(dāng)直觀,那么還需要什么才能使 BERT 運(yùn)行得如此良好?云 TPU 。云 TPU 使我們可以自由地快速試驗(yàn)、調(diào)試和優(yōu)化我們的模型,這對(duì)于我們超越現(xiàn)有的預(yù)訓(xùn)練技術(shù)至關(guān)重要。由 Google 的研究人員于 2017 年開(kāi)發(fā)的 Transformer 模型架構(gòu) 也為我們提供了使 BERT 成功所需的基礎(chǔ)。Transformer 在我們的 開(kāi)源版本 以及 tensor2tensor 庫(kù) 中實(shí)現(xiàn)。

BERT 的結(jié)果

為了評(píng)估性能,我們將 BERT 與其他最先進(jìn)的 NLP 系統(tǒng)進(jìn)行了比較。需要注意的是,在我們的實(shí)驗(yàn)中,我們幾乎沒(méi)有針對(duì)特定任務(wù)而對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行更改。在 SQuAD v1.1 上,BERT 獲得了 93.2% 的 F1 分?jǐn)?shù)(一種準(zhǔn)確度的衡量指標(biāo)),超過(guò)了之前最高水準(zhǔn)的分?jǐn)?shù) 91.6% 和人類(lèi)分?jǐn)?shù) 91.2%:


BERT 還在極具挑戰(zhàn)性的 GLUE 基準(zhǔn)測(cè)試中將準(zhǔn)確性的標(biāo)準(zhǔn)提高了 7.6%。這個(gè)基準(zhǔn)測(cè)試包含 9 種不同的自然語(yǔ)言理解(NLU)任務(wù)。在這些任務(wù)中,具有人類(lèi)標(biāo)簽的訓(xùn)練數(shù)據(jù)跨度從 2,500 個(gè)樣本到 400,000 個(gè)樣本不等。BERT 在所有任務(wù)中都大大提高了準(zhǔn)確性。

支持中文和更多語(yǔ)言的 NLP 預(yù)訓(xùn)練技術(shù)你會(huì)使用嗎?


如何使用 BERT?

我們發(fā)布的模型可以在幾個(gè)小時(shí)或更短的時(shí)間內(nèi)在各種 NLP 任務(wù)上進(jìn)行微調(diào)。開(kāi)源版本還包括運(yùn)行預(yù)訓(xùn)練的代碼,我們相信大多數(shù)使用 BERT 的 NLP 研究人員永遠(yuǎn)不需要從頭開(kāi)始訓(xùn)練他們自己的模型。我們最初發(fā)布的 BERT 模型主要為英語(yǔ)模型?;谏鐓^(qū)反饋,在開(kāi)源代碼和英語(yǔ)模型之后,我們發(fā)布了支持中文以及多語(yǔ)言的預(yù)訓(xùn)練基礎(chǔ)模型 BERT-Base,更好地幫助世界各國(guó)的研究人員和開(kāi)發(fā)者解決相應(yīng)的自然語(yǔ)言處理問(wèn)題。

圖片加載中...

在線(xiàn)留言