光子人工智能在加速機器學習方面引起了相當大的興趣;然而,這種獨特的光學特性還沒有被充分利用來實現更高階的功能。混沌巡回(Chaotic Itinerancy)及其在多個準吸引子之間的自發瞬態動力學,可用于實現類腦功能。
近日,來自日本埼玉大學的研究人員研究了一種控制多模半導體激光器中混沌巡回的方法,以解決機器學習任務,即多臂老虎機(Multiarmed Bandit)問題,這是強化學習的基礎。所提出的方法在通過光注入控制的模式競爭動力學中使用混沌巡回運動。
研究發現該探索機制與傳統的搜索算法完全不同,且具有高度可擴展性,優于針對大規模老虎機問題的傳統方法。這項研究為使用混沌巡回有效解決作為光子硬件加速器的復雜機器學習任務鋪平了道路。
該研究以「Controlling chaotic itinerancy in laser dynamics for reinforcement learning」為題,于 2022 年 12 月 7 日發布在《Science Advances》上。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.abn8325
多臂老虎機、混沌巡回與光子加速器
光子加速器通過使用光子技術克服半導體技術中集成電路密度的限制,提供快速高效的信息處理,被稱為摩爾定律的終結。光子加速器可以被認為是使用光信號與電子計算相結合的預處理器。
在強化學習(RL)中,智能體通過反復試驗學習行為,以最大限度地從與動態環境的交互中獲得回報。強化學習已被廣泛用于圍棋游戲、彈性光網絡中的信號傳輸和機器人控制中獲得卓越的性能。
多臂老虎機問題是概率論中一個經典問題,也屬于強化學習的范疇。設想,一個賭徒面前有 N 個老虎機,事先他不知道每臺老虎機的真實盈利情況,他如何根據每次玩老虎機的結果來選擇下次拉哪臺或者是否停止賭博,來最大化自己的從頭到尾的收益。
解決多臂老虎機問題對于光子決策至關重要。這個問題的目標是最大化來自多項選擇或老虎機的總獎勵,其命中概率是未知的。多臂老虎機問題解決了強化學習中最關鍵的挑戰之一,即最大化總獎勵的探索-利用困境。使用光子動力系統已經成功地實現了選擇具有最高命中概率的老虎機。
決策的可擴展性,即如何應對越來越多的老虎機或選擇,是至關重要的。
混沌巡回是一種現象,其中多個不穩定的吸引子(稱為準吸引子)共存,并且動力系統的變量圍繞這些準吸引子移動。混沌巡回被認為對于理解大腦中自發活動的出現至關重要。此外,混沌巡回已被用于實現聯想記憶。最近,通過使用混沌巡回設計了自發行為切換。通過用于機器學習的實用工程平臺實現的混沌巡回是實現大腦高功能的一種有前途且令人興奮的方法。
在光子系統中觀察到混沌巡回作為多模半導體激光器中多個縱模之間的混沌模式競爭動力學。多模半導體激光器中的混沌模式競爭動力學可能是實現有效自發搜索能力的合適平臺,以在存在多重不確定性的情況下探索最優選擇。盡管確定性混沌系統的可控性會導致混沌巡回的功能性,但在基于強化學習的應用中開發一種控制混沌巡回的方案是一項相當大的挑戰。
在此,研究人員設計并進行了研究,以通過在具有光學反饋和注入的多模半導體激光器中通過數值和實驗控制混沌巡回(即模式競爭動力學)來評估光子決策的可行性。通過使用混沌巡回對多種選擇進行有效探索來解決作為強化學習基礎的多臂強老虎機問題。研究了選擇數量的可擴展性,并證明基于混沌巡回的方法優于置信上限 1 (UCB1) 調整方法,后者是最著名的軟件算法之一。
本研究旨在研究混沌巡回,以利用激光動力學的獨特物理特性,并解決光子決策原理的可擴展性問題。據我們所知,這是使用混沌巡回加速強化學習任務,并建立包含技術上可行的設備元素的具體光子硬件架構的首次演示。
具有光反饋和注入的多模半導體激光器
圖 1 示意性地顯示了具有光反饋和注入的多模半導體激光器的系統架構和動力學。假定多模半導體激光器的五個縱模被激發,其光頻率表示為 νm,表示第 m 個模態強度(m = 1, 2, …, 5, νi < νj 表示 i < j)。此外,具有光頻率 fm 的單模半導體激光器用于光注入。單模激光器的光輸出被注入多模半導體激光器中頻率為 νm 的第 m 模態強度,以控制模式競爭動力學,如圖 1 所示。fm 與 νm 略微失諧以實現注入鎖定。
圖 1:具有光反饋和注入的多縱模半導體激光器。(來源:論文)
研究人員使用具有光反饋的多縱模半導體激光器的數值模型,該模型方程是 Lang-Kobayashi 方程的擴展,這是具有光反饋的半導體激光器的著名數值模型方程。
還添加了來自單模半導體激光器的光注入項。模式 1、2、…、M 是從低頻模式到高頻模式分配的。這種多模半導體激光系統是一個沒有光注入的自主系統。
圖 2:光反饋多模半導體激光器的時間波形。(來源:論文)
研究了在沒有光注入的情況下發生混沌巡回時總強度在其中一種模式上的停留時間。
圖 3:不同振蕩頻率的五種模態總強度的混沌巡回。(來源:論文)
發現停留時間概率的指數關系為 P = Ae^βt,其中 t 表示停留時間,A 和 β 為實數。當模式位于中心時,激光動力學極有可能提供相對穩定的駐留,而當模式位于遠離中心模式時,它會探索其他模式。
圖 3D 顯示了模式 3 中光注入下每個模態強度的總強度停留時間的概率。模式 3 中的停留時間通過光注入增強,概率曲線斜率的絕對值減小。相反,其他模式的停留時間減少,斜率的絕對值增加。值得注意的是,在所有模式的短(<1 ns)和長(>1 ns)停留時間區域觀察到不同的斜率。因此,混沌巡回的統計特性可以通過光注入來改變。
圖 4:五種模式的主模比與光注入強度的函數關系。(來源:論文)
研究得出,可以通過改變光注入強度來配置特定模式成為主導模式的概率。換句話說,可以通過將光學注入設計為特定模式來控制模式競爭動力學。
決策性能的可擴展性
接下來,研究了老虎機數量變化時決策性能的可擴展性。
圖 5:多模半導體激光器(紅色)和 UCB1 調諧軟件算法(藍色)的可擴展性比較。
研究發現,當老虎機數量非常大(超過 100 臺)時,使用多模激光動力學的方法優于 UCB1 調優算法。UCB1-tuned 算法基于置信區間并行選擇老虎機,逐漸降低熵;但是,無法誘導加速。因此,當老虎機數量較多時,基于多模激光動力學的方法可以比 UCB1 調整算法更快地選擇正確的老虎機。
所提出的基于混沌巡回的方法的標度指數為 0.70。這表明所提出的方法在大量老虎機下的優勢,與現有的軟件算法和其他光子方法相比。UCB1 調優算法的指數為 1.06,而 UCB1 調優算法的指數為 1.06,文獻中報告的光子方法分別為 1.16 和 1.85從許多具有未知回報的選擇中識別最佳選擇在實際應用中至關重要,所提出的光子方法可能為解決此類大規模強盜問題開辟一條途徑。
研究人員所提的決策方法可以應用于產生混沌巡回的其他非線性動力系統。混沌巡回支持的自發搜索能力對于解決復雜的機器學習任務以及理解大腦的自發活動非常有前途。
總之,這項研究表明,多模激光動力學中的混沌巡回是解決作為光子加速器的機器學習任務的有前途的資源。所提出的基于混沌巡回的原理利用了光的高帶寬屬性以及復雜的激光動力學,這通過停留時間統計和熵分析得到體現。
基于通過本研究獲得的見解,所提出的結合混沌巡回和復雜激光動力學的方法可以擴展到解決未來的高階問題和復雜的機器學習任務。
轉載請注明出處。