搜索 解放軍報

深度學習,讓“左右互搏術”在人工智能領域真實上演

來源:中國軍網-解放軍報作者:陳 鑫 李立偉 徐亭亭 喬 鵬責任編輯:李佳琦
2021-10-08 06:50

人工智能的“左右互搏術”

■陳 鑫 李立偉 徐亭亭 喬 鵬

圖為“左右互搏術”原理的形象表達。資料圖片

金庸武俠小説《射鵰英雄傳》裏,有這樣一段經典場景:“老頑童”周伯通在被困桃花島期間,創造了“左右互搏術”,即用自己的左手跟自己的右手打架,在兩手互搏中提高功力。

如今,這樣的橋段在人工智能領域真實上演。它,就是深度學習。

“左右互搏術”與深度學習中的一種對抗訓練原理相仿,即有兩個角色——生成器和判別器。生成器類似於左手,扮演攻方;判別器類似於右手,扮演守方。

判別器的目的是正確區分真實數據和生成數據,從而最大化判別準確率;生成器則是儘可能逼近真實數據的潛在分佈。二者需要不斷提高各自的判別能力和生成能力來取勝,從而實現目標優化。

今天,讓我們打開這個“神祕魔盒”。

深度學習的概念,最早是由傑弗裏·辛頓在2006年提出的。這是一門用於學習和利用“深度”人工神經網絡的機器學習技術。作為人工智能領域中最熱的研究方向,深度學習迅速受到學術界和工業界的關注。

目前,深度學習已得到廣泛應用。如在博弈領域,AlphaGo通過深度學習,以4∶1的比分戰勝韓國棋手李世石,成為第一個擊敗人類職業圍棋選手的電腦程序;在醫學影像識別中,以深度學習為核心技術的X光、核磁、CT、超聲等醫療影像多模態大數據的分析技術,可提取二維或三維醫療影像中隱含的疾病特徵;在圖像處理中,最成功的領域是計算機視覺,如圖像風格遷移、圖像修復、圖像上色、人臉圖像編輯以及視頻生成等。

一種特殊的機器學習方法

今天的人工智能,其實是把現實生活中的問題量化成了可計算的問題,然後用計算機算出來。數學模型則架起了中間的橋樑。

現實生活中,很多問題都可以通過建模解決。比如計算遠程火炮彈道問題,計算日食、月食出現的時間和地點等。我們只要把相應公式用計算機語言寫一遍,再代入參數,就能計算出來。

然而,更多問題的解決方法是不確定的。即使我們找到了相應的數學模型,也不知道應該代入什麼參數。比如語音識別、人臉識別和機器翻譯等。因此,我們需要讓計算機通過自主學習,從大量數據中得到相應參數。這個過程,就是機器學習。

機器學習旨在發現數據存在和利用的模式,並用它們進行學習及做出預測。機器學習的過程,就是用計算機算法不斷地優化模型,讓它越來越接近真實情況的過程。它與人類學習的道理如出一轍。

考察人的學習通常方式是考試,如果分數不及格,就需要進一步學習。機器學習也要這樣來衡量,它的目標用專業術語來説,就是“期望值最大化”。

機器學習的效果取決於兩個方面:一方面是學習的深度。機器學習並不能“一口吃成個胖子”,它的訓練算法需要迭代執行。這如同人在學習時要通過複習來“温故而知新”一樣。機器學習迭代的次數越多,即學習得越深入,得到的數學模型效果越好。另一方面是數據的質與量。正如我們做大量優質習題,成績就會提高。機器學習也是如此,訓練數據量越大,學習效果就會越好。

根據數學模型的特點,機器學習有兩種方法:一種是利用已知模型進行訓練;另一種是在模型未知的情況下,設計一些簡單通用的模型結構,然後使用大量的數據進行訓練,訓練成什麼樣就是什麼樣。這便是我們常聽到的人工智能“黑箱”問題,即使訓練有效,也不清楚裏面是什麼。

深度學習就是後一種機器學習的方法。人工智能涵蓋的領域十分廣泛,深度學習只是其中的一個分支,屬於機器學習的範疇。人工智能需要有“獨立思考”能力與機器學習技術的支持,深度學習便是幫助機器實現“獨立思考”的一種方式。

深度學習迎來革命性突破

人工神經網絡,簡稱神經網絡,是一種模仿動物中樞神經系統結構和功能的數學模型,是用大量簡單處理單元經廣泛連接而組成的人工網絡。它其實是一個特殊的分類器,用於對函數進行估計等。

神經網絡為許多問題的研究提供了新思路,特別是迅速發展的深度學習,能發現高維數據中的複雜結構,取得比傳統機器學習更好的效果。

20世紀50年代,人類第一次設計出計算機能運行的神經網絡算法。此時的神經網絡,雖然給了人們很多遐想空間,卻解決不了實際問題,因此被打入“冷宮”。

到了20世紀80年代末期,人們提出反向傳播算法,可讓一個神經網絡模型從大量樣本中學習統計規律,從而對未知事件做出預測。隨後,支持向量機等各種各樣的機器學習方法被相繼提出。不過,這些模型的結構均為淺層學習方法,處理複雜問題的能力受到一定製約。因此,神經網絡再進“冷宮”。

2006年,加拿大教授辛頓和他的學生提出深度學習神經網絡的“快速學習”算法,使深度學習迎來了革命性突破。深度學習通過學習一種深層非線性網絡結構,展現出了從少數樣本中集中學習數據及本質特徵的強大能力。

從此,神經網絡學會了反覆分類以及識別物體的方法,並展現出乎意料的精準度。

計算能力成為推動深度學習的利器

人工神經網絡在被提出的50年間,都沒能很好地解決智能問題。究其原因,除了算法本身不完善外,還在於計算機絕對速度不夠快,而且單位計算能力的能耗太高,無法通過大量服務器搭建並行計算系統,來達成深度人工神經網絡。

那麼,靠什麼加以突破?答案就是摩爾定律。

摩爾定律是英特爾聯合創始人戈登·摩爾在1965年提出的一項觀察結論,即計算機的總體處理能力大約每2年就會翻一番。經歷近50年的歷史檢驗,摩爾定律展現出驚人的準確性。摩爾定律帶來的結果是,在過去的半個多世紀裏,計算機處理器性能增長了上億倍,耗電量卻降到了百分之一。

從能量角度看,摩爾定律反映出了人類在單位能耗下,所能完成信息處理能力的大幅提升。而這正是實現人工智能的基礎所在。

從某種意義上説,不僅是深度學習技術,今天的人工智能都是靠算力成就的。

人工智能的崛起,有3個技術要素:一是它解決了可計算問題,即在算法上的突破;二是它積累了大量數據,形成了可學習的原材料;三是摩爾定律所推測的,處理能力得到持續提高。

算力是推動深度學習的利器。計算能力越強,同樣時間內積累的經驗就越多、迭代速度也越快,深度學習的性能也就越高。

不斷進化的深度學習之道

1997年,“深藍”在國際象棋比賽中戰勝加里·卡斯帕羅夫;2016年,AlphaGo在圍棋比賽中戰勝李世石。

雖然這兩種人工智能系統都學會了下棋,但教授它們的方式以及它們如何比賽,則大相徑庭。

“深藍”的核心評估函數對給定盤面進行數字“排序”,而且函數是手工設計的。這種比賽風格,實際上是一種“蠻力”。“深藍”將其評估函數應用到許多備選的未來狀態,對每個棋手預先搜索七八步,以2億次/秒的速度進行局面評估。

AlphaGo的學習方法則迥然不同。它通過一種雙管齊下的深度學習方法“學習”,用“價值網絡”評估局面,用“策略網絡”選擇走棋。

深度學習神經網絡的訓練,一部分通過使用人類高手對弈數據集的監督學習進行(總出棋數約為3000萬步),另一部分通過對自我對弈非監督強化學習進行(模擬成千上萬場隨機比賽)。它不使用預測搜索,走棋是單個“圍棋局面”整體評估的結果。

2017年5月,在中國烏鎮圍棋峯會上,AlphaGo的升級版AlphaGo Zero,與世界排名第一的圍棋冠軍柯潔對戰,結果以3∶0的總比分完勝。

令人震驚的是,AlphaGo Zero一開始並沒接觸過人類棋譜。它使用了新的強化學習方法,從單一神經網絡開始,通過神經網絡強大的搜索算法,進行自我對弈訓練。隨着自我對弈次數的增加,神經網絡逐漸調整,提升預測下一步的能力,最終成為具備超強棋力的“選手”。更為厲害的是,隨着訓練的深入,AlphaGo Zero還獨立發現了遊戲規則,走出了新策略,為圍棋這項古老遊戲帶來了新見解。

目前,深度學習在許多領域取得了技術性突破,並展示了極佳效果。然而,它仍存在一些侷限:理論研究缺乏、無監督學習能力弱、缺少邏輯推理和記憶能力等。

深度學習對未來社會發展具有重要意義,需要不斷深入研究,從多方向多角度更全面地開發深度學習的潛在價值。面對複雜的戰場,以深度學習為代表的人工智能技術也已逐步滲透到軍事領域,深刻影響着人類戰爭。

可以推斷,未來作為“左右互搏術”的深度學習,必將繼續升級演化,開啓更高深的境界。

輕觸這裏,加載下一頁