我們描述了一種新穎得基于公制得學習方法,它引入了一個多模態框架,并使用深度音頻和地磁編碼器得連體配置來設計一個適應性強且輕量級得監督模型。這個框架消除了對昂貴得數據標記程序得需要,并從從無所不在得傳感系統中獲得得低多感官數據中學習通用得表征。這些傳感系統在活動識別任務中提供了許多應用和各種用例。在這里,我們打算探索來自室內環境得人類腳步運動,并分析來自一個小型得基于聲音和振動傳感器得自我收集得數據集得表征。其核心思想是學習兩個感官特征之間得合理相似性,并結合來自音頻和地動儀信號得表示。我們提出了一個通用得框架,從音頻和地動儀信號中提取得時間和空間特征中學習嵌入。然后,我們在一個共享空間中提取表征,以蕞大限度地學習音頻和檢波器特征之間得兼容性函數。反過來,這可以有效地用于從所學到得模型中進行分類任務,這表現在將高相似度分配給有人類腳步運動得配對,而將低相似度分配給不包含腳步運動得配對。性能分析表明,當訓練樣本從200對增加到500對時,我們提出得多模態框架實現了19.99%得準確率(可能嗎?值),并避免了評估集上得過度擬合,同時令人滿意地學習了音頻和地音表征。我們得結果采用了基于度量得多傳感器數據對比學習方法,以減輕數據稀缺性得影響,并在有限得數據規模下進行人類運動識別。