巧解「數據稀缺」問題!清華開源GPD:用擴散模型生成神經網絡參數
清華大學電子工程系城市科學與計算研究中心最近提出了一種新的時空少樣本學習方法,旨在解決城市計算中廣泛存在的數據稀缺性問題。該方法利用了利用擴散模型來生成神經網絡參數,將時空少樣本學習轉換為擴散模型的預訓練問題,可根據prompt(提示)生成定制的神經網絡,從而適應不同數據分布和城市特征。
傳統(tǒng)的時空預測模型通常需要大量數據支持才能取得良好效果。
然而,由于城市發(fā)展水平不均衡和數據收集政策的差異,許多城市和地區(qū)的時空數據(如交通和人群流動數據)受到了限制。在這種情況下,模型在數據稀缺情況下的可遷移性變得尤為重要。
現有研究主要利用數據豐富的源城市數據訓練模型,并將其應用于數據稀缺的目標城市。然而,現有方法往往依賴于復雜的匹配設計,如何實現對源城市和目標城市之間更一般化的知識遷移仍然是一個挑戰(zhàn)。
最近,預訓練模型在自然語言處理和計算機視覺領域取得了顯著進展,它們通過引入prompt(提示)技術來縮小微調和預訓練之間的差距。這些先進的預訓練模型不再需要繁瑣的微調,而是利用有效的prompt技術實現快速適應。
論文鏈接:https://openreview.net/forum?id=QyFm3D3Tzi
開源代碼及數據:https://github.com/tsinghua-fib-lab/GPD
清華大學電子工程系城市科學與計算研究中心最新成果《Spatio-Temporal Few-Shot Learning via Diffusive Neural Network Generation》被 ICLR2024 接收,該研究提出GPD(Generative Pre-Trained Diffusion)模型,實現數據稀疏場景下的時空學習。
通過直接生成神經網絡的參數,該方法將時空少樣本學習轉變?yōu)閿U散模型的生成式預訓練問題。與傳統(tǒng)方法不同,GPD不再依賴于提取可遷移特征或設計復雜的模式匹配策略,且不需要為少樣本場景學習一個良好的模型初始化。
相反,它通過預訓練一個擴散模型,從源城市的數據中學習到有關優(yōu)化神經網絡參數的知識,然后根據prompt(提示)生成適應目標城市的神經網絡。
這一方法的創(chuàng)新之處在于能夠根據「prompt(提示)」生成定制的神經網絡,有效地適應不同城市之間的數據分布和特征差異,實現巧妙的時空知識遷移。
該研究為解決城市計算中數據稀缺性問題提供了新的思路。該論文的數據和代碼均已開源。
一、從數據分布到神經網絡參數分布
圖 1:數據模式層面知識遷移 vs. 神經網絡層面知識遷移
如圖1(a)所示,傳統(tǒng)的知識遷移方法通常是在源城市的數據上訓練模型,然后將其應用于目標城市。然而,不同城市之間的數據分布可能存在顯著差異,這導致直接遷移源城市模型可能無法很好地適應目標城市的數據分布。
因此,我們需要擺脫對雜亂數據分布的依賴,尋求一種更本質、更可遷移的知識共享方式。與數據分布相比,神經網絡參數的分布更具有“高階”的特性。
圖 1 展示了從數據模式層面到神經網絡層面知識遷移的轉變過程。通過在源城市的數據上訓練神經網絡,并將其轉化為生成適應目標城市的神經網絡參數的過程,可以更好地適應目標城市的數據分布和特征。
二、預訓練+提示微調:實現時空少樣本學習
圖2 GPD模型概覽
如圖2所示,該研究提出的GPD是一種條件生成框架,旨在直接從源城市的模型參數中學習,并為目標城市生成新的模型參數,該方法包括三個關鍵階段:
1. 神經網絡準備階段:首先,針對每個源城市區(qū)域,該研究訓練單獨的時空預測模型,并保存其優(yōu)化后的網絡參數。每個區(qū)域的模型參數都經過獨立優(yōu)化,沒有參數共享,以確保模型能夠最大程度地適應各自區(qū)域的特征。
2. 擴散模型預訓練:該框架使用收集到的預訓練模型參數作為訓練數據,訓練擴散模型來學習生成模型參數的過程。擴散模型通過逐步去噪來生成參數,這個過程類似于從隨機初始化開始的參數優(yōu)化過程,因此能夠更好地適應目標城市的數據分布。
3. 神經網絡參數生成:在預訓練后,可以通過使用目標城市的區(qū)域提示來生成參數。這種方法利用提示促進了知識轉移和精確參數匹配,充分利用了城市間區(qū)域之間的相似性。
值得注意的是,在預訓練-提示微調的框架中,提示的選擇具有很高的靈活性,只要能夠捕捉特定區(qū)域的特征即可。例如可以利用各種靜態(tài)特征,如人口、區(qū)域面積、功能和興趣點(POI)的分布等來實現這一目的。
這項工作從空間和時間兩個方面利用區(qū)域提示:空間提示來自于城市知識圖譜[1,2]中節(jié)點表征,它僅利用區(qū)域鄰接性和功能相似性等關系,這些關系在所有城市中都很容易獲?。粫r間提示來自于自監(jiān)督學習模型的編碼器。更多關于提示設計的細節(jié)請參見原文。
此外,該研究還探索了不同的提示引入方法,實驗驗證了基于先驗知識的提示引入具有最優(yōu)性能:用空間提示引導建??臻g關聯的神經網絡參數生成,用時間提示引導時序神經網絡參數生成。
三、實驗結果
團隊在論文中詳細描述了實驗設置,以幫助其他研究者復現其結果。他們還提供了原論文和開源數據代碼,我們在這里關注其實驗結果。
為了評估所提框架的有效性,該研究在兩類經典的時空預測任務上進行了實驗:人群流動預測和交通速度預測,覆蓋了多個城市的數據集。
表1展示了在四個數據集上相對于最先進基線方法的比較結果。根據這些結果,可以得出以下觀察:
1)GPD相對于基線模型表現出顯著的性能優(yōu)勢,在不同數據場景下一致表現優(yōu)越,這表明GPD實現了有效的神經網絡參數層面的知識遷移。
2)GPD在長期預測場景中表現出色,這一顯著趨勢可以歸因于該框架對于更本質知識的挖掘,有助于將長期時空模式知識遷移到目標城市。
圖3 不同時空預測模型的性能對比
此外,該研究還驗證了GPD框架對于不同時空預測模型適配的靈活性。除了經典的時空圖方法STGCN外,該研究還引入了GWN和STID作為時空預測模型,并使用擴散模型生成其網絡參數。
實驗結果表明,框架的優(yōu)越性不會受到模型選擇的影響,因此可以適配各種先進的模型。
進一步地,該研究通過在兩個合成數據集上操縱模式相似性進行案例分析。
圖4展示了區(qū)域A和B具有高度相似的時間序列模式,而區(qū)域C展示了明顯不同的模式。同時,圖5顯示節(jié)點A和B具有對稱的空間位置。
因此,我們可以推斷區(qū)域A和B具有非常相似的時空模式,而與C有著明顯的差異。模型生成的神經網絡參數分布結果顯示,A和B的參數分布相似,而與C的參數分布有顯著差異。這進一步驗證了GPD框架在有效生成具有多樣化時空模式的神經網絡參數的能力。
圖 4 不同區(qū)域的時間序列及神經網絡參數分布可視化
圖 5 仿真數據集區(qū)域空間連接關系
參考資料:
https://github.com/tsinghua-fib-lab/GPD
[1] Liu, Yu, et al. “Urbankg: An urban knowledge graph system.” ACM Transactions on Intelligent Systems and Technology 14.4 (2023): 1-25.
[2] Zhou, Zhilun, et al. “Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-based social network.” Proceedings of the ACM Web Conference 2023. 2023.
編輯:LRS 好困
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。
本文由人人都是產品經理合作媒體 @新智元 授權發(fā)布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!