欧美视频在线观看免费最新,亚洲精品欧美精品日韩精品,国产日韩欧美亚洲综合首页

復(fù)旦大學(xué)：利用場景圖針對圖像序列進(jìn)行故事生

發(fā)布時間：2025-02-28 18:29

　　該文章認(rèn)為將圖像轉(zhuǎn)為圖結(jié)構(gòu)的表示方法（如場景圖），然后通過圖網(wǎng)絡(luò)在圖像內(nèi)和跨圖像兩個層面上進(jìn)行關(guān)系推理，有助于表示圖像，并最終有利于描述圖像。實(shí)驗結(jié)果證明該方法可以顯著的提高故事生成的質(zhì)量。

　　對于大多數(shù)人，觀察一組圖像然后寫一個語義通順的故事是很簡單的事情。盡管近年來深度神經(jīng)網(wǎng)絡(luò)的研究取得了令人鼓舞的成果，但對于機(jī)器來說，這仍然是一件困難的事情。

　　近年來，視覺敘事(visual storytelling)越來越受到計算機(jī)視覺（CV）和自然語言處理（NLP）領(lǐng)域的關(guān)注。不同于圖像標(biāo)注(image captioning)旨在為單個圖像生成文字描述，視覺敘事任務(wù)則更具挑戰(zhàn)性，它進(jìn)一步研究了機(jī)器如何理解一個圖像序列，并生成連貫故事的能力。

　　目前的視覺敘事方法都采用了編碼器-解碼器結(jié)構(gòu)，使用通過一個基于CNN的模型提取視覺特征，使用基于RNN的模型進(jìn)行文本生成。其中有些方法引入了強(qiáng)化學(xué)習(xí)和對抗學(xué)習(xí)等方法，來產(chǎn)生更加通順、有表現(xiàn)性的故事。但是僅使用CNN提取到的特征來表示所有的視覺信息，這不大符合直覺而且損害了模型的可解釋性和推理能力。

　　回想一下人是如何看圖寫故事的呢？人會先分辨出圖像上面有什么物體，推理他們的關(guān)系，接下來把一個圖像抽象成一個場景，然后依次看觀察圖像，推理圖像間的關(guān)系。對于視覺敘事這個任務(wù)，本文認(rèn)為也可以采用類似方法。

　　本文認(rèn)為把圖像轉(zhuǎn)為一種圖結(jié)構(gòu)的表示（如場景圖），隨后在圖像內(nèi)(within-image)和跨圖像(cross-image)這兩個層面上建模視覺關(guān)系，將會有助于表示圖像，并最終對描述圖片有所幫助。

　　本文提出了一種基于圖網(wǎng)絡(luò)的模型SGVST(如圖2所示)，它可以在圖像內(nèi)和跨圖像這兩個層面上建模視覺關(guān)系。

　　如圖2所示，一個男人抱著一個孩子，那么男人和孩子就可以作為圖中的節(jié)點(diǎn)，他們的視覺關(guān)系作為邊。接著將場景圖通過Multi-modal Graph ConvNet：在圖像內(nèi)的層面，使用圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）來對場景圖中的節(jié)點(diǎn)特征進(jìn)行增強(qiáng)。在跨圖像層面，為了建模圖像之間的交互，使用時序卷積神經(jīng)網(wǎng)絡(luò)（TCN）來沿著時間維度進(jìn)行卷積，進(jìn)一步優(yōu)化圖像的特征表示。最后得到了集合了圖像內(nèi)關(guān)系和跨圖像關(guān)系的relation aware的特征，輸入到層次化解碼器（Hierarchical Decoder）中來生成故事。

　　表1：在VIST數(shù)據(jù)集上的不同模型性能比較. *代表直接優(yōu)化RL獎勵，比如CIDEr分?jǐn)?shù), +代表通過交叉熵?fù)p失(MLE)優(yōu)化.

　　表1顯示了不同模型在七個自動評價指標(biāo)上的性能。結(jié)果顯示作者提出的SGVST模型幾乎在所有指標(biāo)上都優(yōu)于其他用MLE和RL優(yōu)化的模型具有更好的性能，SGVST的BLEU-1、BLEU-4和METEOR得分比其他基于MLE優(yōu)化的最佳方法分別提高了3.2%、2.5%和1.4%，這被認(rèn)為是在VIST數(shù)據(jù)集上的顯著進(jìn)步。這直接說明將圖像轉(zhuǎn)換為基于圖的語義表示（如場景圖），有利于圖像的表示和高質(zhì)量的故事生成。

　　本文還進(jìn)行了消融實(shí)驗，和提出模型的5個變種模型進(jìn)行了比較，來驗證模型每個模塊部分的重要性。從表1中可以看在不使用GCN和TCN的時候，模型性能有一個很大的下降。這說明圖網(wǎng)絡(luò)在該模型中是最為重要的，因為它可以給模型帶來了推理視覺關(guān)系的能力。

　　圖4展示了3種不同模型生成的故事和真實(shí)故事的樣例。第一行是輸入的一個圖像序列。第二行是生成出的場景圖。第三行是不同模型生成的故事?？梢钥闯鯯GVST生成的故事更通順，而且信息更豐富、更有表現(xiàn)力。

　　圖5：每種顏色代表了相對應(yīng)模型產(chǎn)生的故事，被評價人員認(rèn)為更加像人寫的、更有表現(xiàn)力所占的比例。灰色的”Tie”代表了打平.

　　表2：人工評估結(jié)果。在AMT上的評估人員根據(jù)對每個問題的同意程度來評價故事的質(zhì)量，評分范圍為1-5.

　　為了更好地評價生成的故事的質(zhì)量，作者通過Amazon Mechanical Turk（AMT）進(jìn)行了兩種人工評價。（1）圖5是不同模型兩兩比較的一個實(shí)驗結(jié)果，給評價人員2個生成出的故事，然后讓他來選擇哪一個寫的更好。（2）表2是在6個指標(biāo)上進(jìn)行的人工評估實(shí)驗結(jié)果。可以看出本文提出的模型和其他模型相比有著巨大的優(yōu)勢，而且和人類相比，也取得了有競爭力的表現(xiàn)。

　　2. 本文提出了一個基于圖網(wǎng)絡(luò)的模型，可以將圖像轉(zhuǎn)為場景圖，然后在圖像內(nèi)和跨圖像兩個層面上進(jìn)行關(guān)系推理。

　　3. 實(shí)驗結(jié)果表明，本文提出的模型取得了優(yōu)秀的表現(xiàn)，并且能產(chǎn)生信息更加豐富、語言更加連貫的故事。

　　4.場景圖生成的質(zhì)量限制了本文模型的性能，如果能有更好的場景圖生成方法，本文模型的性能還能取得進(jìn)一步提高。

美女a毛片,国内黄色一级精品,亚洲人成在线观看一区二区,亚洲a网站,殴美一级视频,日韩一区二区免费,国产www色

關(guān)于我們

ai資訊

ai應(yīng)用

聯(lián)系我們