需求描述
使用已有數(shù)據(jù)集實現(xiàn)一個用于生成視頻描述的模型嗎,視頻數(shù)據(jù)(MSVD數(shù)據(jù)集)。使用pytorch,使用對抗生成網絡,使用LSTM,使用GPU加速等。
包括以下步驟:
數(shù)據(jù)預處理(加載數(shù)據(jù),將視頻特征和視頻描述對齊并劃分為訓練集和測試集)
構建模型
訓練模型
模型評估
參考文章:Video captioning using Semantically Contextual Generative Adversarial Network