什么是NLP自然語言處理?定義、重要性、發(fā)展和應(yīng)用 – AI百科

NLP自然語言處理的定義
NLP(全稱Natural Language Processing),即自然語言處理,是計(jì)算機(jī)科學(xué)的一個(gè)領(lǐng)域,重點(diǎn)是創(chuàng)建能夠理解人類語音和語言的計(jì)算機(jī)和軟件。
人類和計(jì)算機(jī)的語言是非常不同的,編程語言作為兩者之間的中介存在。我們說話和寫作的方式是非常細(xì)微的,而且往往是模棱兩可的,而計(jì)算機(jī)則完全是基于邏輯的,遵循它們被編程執(zhí)行的指令。這種差異意味著,傳統(tǒng)上計(jì)算機(jī)很難理解人類語言,而自然語言處理旨在改善計(jì)算機(jī)理解人類文本和語音的方式。
NLP使用人工智能和機(jī)器學(xué)習(xí),以及計(jì)算語言學(xué),來處理文本和語音數(shù)據(jù),從中得出意義,弄清意圖和情感,并形成回應(yīng)。正如我們將看到的那樣,自然語言處理的應(yīng)用非常廣泛和眾多。
NLP自然語言處理的重要性
自然語言處理的概念比你認(rèn)知的還要早,早在20世紀(jì)50年代,專家們就一直在尋找為計(jì)算機(jī)編程以進(jìn)行語言處理的方法。近些年,隨著計(jì)算能力的提高和機(jī)器學(xué)習(xí)的發(fā)展,該領(lǐng)域才有了巨大的進(jìn)步。
當(dāng)我們思考NLP的重要性時(shí),值得考慮的是人類語言是如何結(jié)構(gòu)的。除了構(gòu)成書面句子的詞匯、句法和語法之外,還有口語的語音、音調(diào)、口音和措辭。
我們以許多不同的方式傳達(dá)意義,同一個(gè)詞或短語可以有完全不同的意義,這取決于說話者或作者的背景和意圖。從本質(zhì)上講,語言有時(shí)甚至對人類來說都很難解釋,所以讓機(jī)器理解我們是一個(gè)相當(dāng)大的成就。
然而,隨著自然語言處理的改進(jìn),我們可以更好地與我們周圍的技術(shù)對接。它有助于為本質(zhì)上非結(jié)構(gòu)化的東西帶來結(jié)構(gòu),這可以使軟件更加智能,甚至使我們能夠更好地與其他人溝通。
最終,NLP可以幫助產(chǎn)生更好的人機(jī)互動,以及提供關(guān)于意圖和情感的詳細(xì)見解,讓企業(yè)、普通消費(fèi)者和技術(shù)人員從中受益。
NLP自然語言處理的工作原理
現(xiàn)在我們對什么是自然語言處理有了一些了解,讓我們深入了解其工作原理的基本情況。值得注意的是,NLP是人工智能的一個(gè)相當(dāng)高級的應(yīng)用,所以我們將著眼于對該軟件的一個(gè)非常頂層的解釋。
關(guān)于自然語言處理的第一件事是,有幾個(gè)功能或任務(wù)構(gòu)成了這個(gè)領(lǐng)域。根據(jù)所需的解決方案,其中一些或所有的功能可能同時(shí)互動。在一個(gè)基本水平上,NLP軟件進(jìn)行三個(gè)主要過程:
- 首先,它將語言(語音或文本)分解成小塊
- 其次,它試圖理解這些信息片段之間的關(guān)系
- 最后,它試圖從這些關(guān)系中創(chuàng)造意義
當(dāng)然,在這些過程中,還有更多的步驟參與其中。需要大量的語言學(xué)知識,以及編程、算法和統(tǒng)計(jì)。
自然語言處理涉及的技術(shù)
如下列表,我們提供了一些關(guān)于自然語言處理在某些任務(wù)上如何工作的進(jìn)一步細(xì)節(jié):
- 語音識別。將語音數(shù)據(jù)轉(zhuǎn)化為文本數(shù)據(jù)的過程,語音識別軟件將語音分解為各個(gè)聲音,使用算法將意義拼湊起來。
- 詞義歧義化。在許多語言中,相同的詞可以根據(jù)上下文有不同的含義。詞義辨析(WSD)是分析語言以區(qū)分不同含義的過程。
- 核心推理解決。這個(gè)過程有助于確定文本或語音中的詞是否以及何時(shí)指代同一實(shí)體,一個(gè)很好的例子是解決哪些代詞(他、她、他們)是指哪個(gè)人或物體。
- 情感分析。語言往往有很多微妙之處,NLP可以用來從語言中提取情緒和態(tài)度,無論是積極的還是消極的。
NLP、AI和機(jī)器學(xué)習(xí)的關(guān)系
自然語言處理是人工智能(AI)的一個(gè)分支,它也使用機(jī)器學(xué)習(xí)(Machine Learning)和數(shù)據(jù)分析的元素,雖然這些是不同的領(lǐng)域,但它們卻又是重疊的。
每個(gè)領(lǐng)域都是由大量的數(shù)據(jù)驅(qū)動的,數(shù)據(jù)越多,結(jié)果越好。為高度非結(jié)構(gòu)化的數(shù)據(jù)帶來結(jié)構(gòu)是另一個(gè)特點(diǎn)。同樣,每個(gè)領(lǐng)域都可以用來提供洞察力,突出模式,并確定當(dāng)前和未來的趨勢。
自然語言處理具有許多這些屬性,因?yàn)樗墙⒃谙嗤脑瓌t之上。人工智能是一個(gè)專注于機(jī)器模擬人類智能的領(lǐng)域,而自然語言處理則特別專注于理解人類語言。兩者都建立在機(jī)器學(xué)習(xí)的基礎(chǔ)上——使用算法來教機(jī)器如何自動完成任務(wù)并從經(jīng)驗(yàn)中學(xué)習(xí)。
NLP自然語言處理的應(yīng)用和例子
- 語言翻譯。NLP的挑戰(zhàn)之一是產(chǎn)生從一種語言到另一種語言的準(zhǔn)確翻譯,這是一個(gè)相當(dāng)成熟的機(jī)器學(xué)習(xí)領(lǐng)域,也是近年來取得重大進(jìn)展的一個(gè)領(lǐng)域。當(dāng)然,這里有許多因素需要考慮。直接逐字翻譯往往沒有意義,許多語言翻譯者必須確定輸入語言以及確定輸出語言。較早的語言翻譯形式依賴于所謂的基于規(guī)則的機(jī)器翻譯,其中需要大量的語法規(guī)則和兩種語言的詞典。最近的AI翻譯方法依賴于統(tǒng)計(jì)機(jī)器翻譯,它使用來自現(xiàn)有翻譯的數(shù)據(jù)來通知未來的翻譯。
- 語音助手。無論是國內(nèi)的小愛同學(xué)、天貓精靈或者小度,還是國外的Siri、Alexa、谷歌助手,我們中的許多人都在使用這些由NLP驅(qū)動的語音助手。這些智能助手使用NLP將用戶的語音或文本輸入與命令相匹配,根據(jù)請求提供響應(yīng)。通常情況下,它們通過記錄和檢查你的聲音的頻率和聲波,并將其分解成少量的代碼來做到這一點(diǎn)。然后用一種算法分析這種代碼,以確定其含義。
- 搜索引擎的結(jié)果。搜索引擎成為我們生活的一部分已經(jīng)有較長的時(shí)間了。然而,傳統(tǒng)上,它們對于確定人們搜索的內(nèi)容和方式的背景并不是特別有用。其中,語義搜索是自然語言處理的一個(gè)領(lǐng)域,可以更好地理解人們搜索(無論是通過語音還是文本)背后的意圖,并根據(jù)它返回更有意義的結(jié)果。除了提供更好、更直觀的搜索結(jié)果外,語義搜索還對數(shù)字營銷,特別是搜索引擎優(yōu)化領(lǐng)域有影響。
- 預(yù)測性文本。你可能已經(jīng)在幾個(gè)地方看到了自然語言處理的這種應(yīng)用。無論是在你的智能手機(jī)鍵盤、搜索引擎搜索欄,還是在你寫電子郵件時(shí),預(yù)測性文本都相當(dāng)突出。這種類型的NLP研究個(gè)人和群體如何使用語言,并對接下來會出現(xiàn)什么詞或短語做出預(yù)測。機(jī)器學(xué)習(xí)模型會研究哪個(gè)詞接下來會出現(xiàn)的概率,并在此基礎(chǔ)上提出建議。