主題

【MyGO】MyGO論文？！簡介&評價論文 "MyGO: Discrete Modality Information......"

york | 2024-04-25 22:30:31 | 巴幣 4000 | 人氣 65

前言

對，各位觀眾，你沒看錯。最近有出現了這麼一篇論文，就叫「MyGO」：

Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Huajun Chen, Wen Zhang, “MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion,”arXiv 2404.09468.

（附帶一提，論文全名太長了，塞不進標題......）

論文連結在這裡：

https://arxiv.org/abs/2404.09468

話說是這樣的，前幾天呀，當小弟我還在參加某學術會議的時候（心得的部分已經發到plurk上面了，限好友，有興趣的話可以加一下好友），正好看到FB有某粉專分享了這麼一篇論文。這不看不知道，一看嚇一跳，居然論文標題就一個斗大的MyGO掛在那邊，還是個電腦科學的論文。身為一個給〈春日影〉做過中文填詞的MyGO粉絲，這我可憋不住了。當下就跟我一個學弟講：這人真會玩！既然這樣，我就要仔細拜讀一下這篇論文，給它做個review評價它的好壞，還要發篇文章來給網友講講。

對，歸根究柢，這一切都是：

（哏圖借自：https://nga.178.com/read.php?tid=38014874&rand=165）

好吧，可問題是，我說要給論文評價，可我的人權呢？

那如果被這麼說，我還真只能承認。小弟我對KG或multi-modal方面的理解不算太多。是大概懂它們在幹嘛，但再怎麼說也算不上專家。要真是有個學術會議找我來審這篇，我大概也會有點猶豫。不過，沒辦法，看MyGO導致的，就實在受不了，好想跟著一起玩哏，一起迷失(x

所以還是寫了這篇文章。因此這裡會有一些警告：

一、本人並非此領域的專家，評價或意見，相對比較是偏外行人的角度，也有一定可能出錯。如您是相關領域的專家，看到本文章有錯誤之處，請不吝指出，我很樂意接受任何批評指教。

二、雖說是評價，但即使是學術論文的評價，本身還是存在主觀之處。同一篇論文給不同人審稿，也往往會得出不同評價。請各位不要太當真。畢竟，本評價多少帶有我本人的主觀與偏見嘛。

三、如果這篇文章講得不怎麼清楚，也希望可以給個回饋，我就比較明白要怎麼改進。

最後附上一點小小的人權。小弟我還是有幫幾個學術會議審稿的，雖然專長不是在同個領域……

(剛剛才上去抓下來的審稿證明。私人資訊有塗掉)

先備知識

在開始一起迷失/MyGO之前，有幾個簡單的先備知識，還是要先講一下。

- Knowledge Graph（KG）是什麼？有什麼用？

KG的中文翻譯通常叫作「知識圖譜」（見https://zh.wikipedia.org/zh-tw/知識圖譜）。簡單來說，這東西裡面包含兩種「知識」類的資訊，第一種以（實體1-關係-實體2）的方式儲存，第二種則是關於每個「實體」本身的描述資訊。

聽起來很混亂？實體是啥？

舉個例子吧。有可能「實體1」是「MyGO動畫」，「關係」是「屬於」，「實體2」是「2023年7月新番」。那麼，這樣存下來的知識代表什麼？

MyGO動畫－屬於－2023年7月新番

沒錯，它描述了兩個事物之間的關係！

另一個例子是這樣的：

〈春日影〉－演奏者是－MyGO樂團

……

不屬於CRYCHIC的春日影QQ（附帶一提，也可以再加上一個知識「〈春日影〉－演奏者是－CRYCHIC樂團」，即使這樣重複也是沒問題的！）

好吧，那麼言歸正傳，KG這東西有什麼用？

簡單來說，KG把這些知識用一個結構化的方式聯繫起來。這讓其他的程式可以很簡單地去「理解」知識。大家或許知道ChatGPT對於某些知識方面的問題，有時候會給出不正確的回應。如果我們能夠給ChatGPT提供正確而詳盡的KG，它就可以按照這些資訊，理解「MyGO這部動畫是2023年7月新番」的事實，而給出正確的回應。

當然，除此之外的用途還很多，這只是舉個例子而已。

- Multi-modal Knowledge Graph Completion（MMKGC）是什麼？

Multi-modal Knowledge Graph Completion（MMKGC）是這篇論文主要處理的問題。首先我們從multi-modal這個詞談起。這個詞的中文翻譯應該叫作「多模態」。在這裡，所謂的「模態」指的是資訊的形式。影像是一種模態，文字則是另一種，語音又是另一種。不同模態的資訊形式是不同的，但它們都可以乘載資訊。

就像人類可以同時透過視覺與聽覺去感知世界，如果我們引入多模態的概念，讓AI也能夠看到多種不同形式的資訊，它能夠做到的事情就會增加。這是現在AI相關研究很重要的一個方向！

接下來我們談Knowledge Graph Completion（KGC）。就像前面所說，用KG的方式描述資訊有其方便之處。但問題是，這些資訊往往需要一筆一筆輸入。聽起來很理所當然，畢竟知識總是得一筆一筆累積，可是──欸，如果能讓AI自己學會去找出不同實體的關係呢？

聽起來匪夷所思，就像是無中生有變出一些知識來，這怎麼能做到？但我們舉個例子吧：

千早愛音－屬於－MyGO樂團

高松燈－屬於－MyGO樂團

如果我們已知這兩者，是不是可以「憑空」變出以下的知識呢？

千早愛音－屬於同個團體－高松燈

應該可以吧？所以，KGC還可以做的。而且，這邊筆者還沒提到，在KG裡面每一個「實體」都可以有它自己的描述資訊。透過整理這些資訊，有機會可以按圖索驥，推理出各式各樣的，不同實體之間的關聯性。就這一點來說，另一個例子如下：

千早愛音－同學－高松燈

MyGO動畫（作為實體的描述）：千早愛音在高中一年級的春天將近結束之際，才由英國回到日本，在奇怪的時間點轉學到羽丘女子學園。 (摘自維基百科: https://zh.wikipedia.org/zh-tw/MyGO!!!!!)

在這個情況下，我們有一組關係的描述，另外還有一個看起來好像不怎麼相關的實體「MyGO動畫」的描述。那麼，我們或許可以推知：

高松燈－就讀－羽丘女子學園

因為千早愛音就讀這所學校，而她又是高松燈的同學。這樣的推理同時利用了實體（MyGO動畫）的描述，也利用了兩個實體之間之間的關係（千早愛音是高松燈的同學），而得以抽取出額外的知識。

那麼，我們現在知道了multi-modal，又知道KGC了，那麼MMKGC是？

其實，multi-modal knowledge graph completion的目標，就是試圖去推理出，多模態的KG裡面，各種實體之間的關聯性（原先可能它們存在的某些關聯性，並未被準確標註出來）。其中，在多模態的知識圖譜當中，每個實體的描述可能包含不只一種模態的內容。比方說，在這篇論文的情境裡面，它的所謂「多模態」包含了文字與影像的資訊。也就是說，它裡面對實體本身的描述，可能包含文字或影像的資料。透過從這些資訊裡面去推理，這篇論文試圖推斷出原先不存在的，不同實體之間的關係性！

那這有什麼用呢？用途可大了！畢竟，如果能讓AI自己通靈出這些資訊，那麼人類就不需要把這些「兩個實體之間的關係性」都要一個一個輸入，自然方便很多。

論文簡介

為了進行所謂的MMKGC，這篇論文試圖善用原先的KG當中所包含的，關於多個模態的資訊──具體而言，即是文字與影像。透過善用這些資訊，希望可以抓出一些額外的實體之間關係的資訊，為了做到這點，先前的做法大多是將影像的資訊單獨抽取出一組固定維度的特徵，對文字資訊也抽取出另外一組固定維度的特徵，並以這些特徵為基礎進行後續的處理。

然而，這篇論文發現到，這樣並不一定是最好的方法。前人的做法所抽取出的特徵，是對於整張影像／整段文字的特徵，是整體的資訊。這樣的方法會讓比較局部的特徵無法凸顯出來。

論文裡面舉了這麼一張圖作為例子：

這張圖是對於實體「Tyrannosaurus Rex」，也就是「暴龍」本身的描述，裡面提到暴龍的各種特徵，包含頭部、牙齒等等。然而，這些資訊都是相對局部的資訊。如果對整段描述去抽取特徵（一個簡單的比喻，就是簡短地去總結這一整段句子），恐怕會忽略掉這些資訊。同理，左邊的圖片也有類似的狀況：暴龍的一些局部特徵，恐怕以整張圖的尺度來說，或許就不會被突顯出來。然而，這些資訊仍然是有潛力可以協助AI去推理出不同實體之間的關聯性的。

為此，這篇論文提出了MyGO的方法！方法的說明圖如下：

簡單來說，它就是對於文字與影響的每個局部的部分，都去抽取一組特徵。如此一來，抽取出的特徵就可以保留這些局部的資訊，以方面後續處理。

至於為什麼這個方法叫作MyGO？根據論文的說法，那當然是因為這個方法的全名叫作ModalitY information as fine-Grained tOkens啦！

？？？

這硬湊出來的吧......

沒，反正我們可以繼續go沒關係。還要再八個月才到2025年1月嘛XD

好，言歸正傳，其實這篇總共有提出三個方法改善MMKGC，但後面的部分就有點複雜。相較之下，我個人覺得這篇的第一個方法：對局部抽取特徵，而不是對整張影片／整段文章抽取特徵，既簡單又合理，才是比較有意思的。所以後面兩個方法我這邊就略過不提了（否則這篇文章的複雜度會太高QQ）。不多說，直接快轉到實驗結果的部分：

這裡作者所列出的所有數據，都是越高越好。可以看出，MyGO這個方法勝過了其他作者有提及的，前人所提出過的方法。這也說明了MyGO確實是個好方法。而後續的實驗結果，也說明了這篇論文所提出的改進的方向，基本上都有帶來相對好的結果：

這方面的實驗叫作ablation studies。具體的作法是，把提出的整個模型，每一次去除掉一個作者提出的方法（總共有三個大方法），或者用別的方式替代之後，測試看看結果是否有變差。如果有變差，代表提出的方法是有用的，才會導致，在拿掉這個方法之後，效果就變差了。

而這些實驗結果確實證明了，作者的方法是有用的，因為full model（作者提出的整個方法）好過所有其他的方法／設定。論文大致上來說就是這樣了。欲知細節，大家還是可以直接去讀看看。

評價

好了，現在來到比較嚴肅的環節了。

這篇論文並沒有明說它投稿的是哪一個學術會議或期刊，但我看這篇論文的左上角有寫"ACM MM 2024"，那我就當作是這個好了。投稿學術會議的結果，通常只有兩大類，一類是accept（代表被接受，可以在會議上發表），一類是reject（代表論文不被接受，通常是被認為不夠格在會議上發表，當然也有一些比較少見的狀況，比如論文的主題跟會議的方向不切合之類的）。首先，我這邊會直接先提論文的優缺點；然後，我會做一個假設性的討論，指出「如果這篇被reject的話，可能會是什麼原因」；最後，我會給出個人的主觀評價。

但在這之前，一樣有兩個前提要先聲明：

一、本人不是做KG的，所以我假設作者沒有遺漏掉任何前人的研究論文。這點對於評估原創性有極大影響。畢竟，如果有人已經提出類似的方法，而自己是第二個提出的，那麼原創性一定會大大下降。

二、本人沒有給ACM MM審過稿，也沒有投稿過ACM MM，我這邊純粹以我個人主觀去做判斷。此外，本人並不是做KG的，所以評價可能不準確。

優點：這篇論文的思路跟方法很直接易懂，圖片（Figure 2）也相當清楚，整體來說論文是有成功地把想法表達出來。除此之外，論文的實驗數據，也都證明了作者提出的方法，確實有其用處。事實上，我甚至可以說，光看Figure 2加上Table 2跟3的數據，基本上就保證了這篇論文不會拿到太差的評價。

缺點：論文在一些細節的描述有不清楚的地方，比如Equation 7的h和r是哪裡來的，就沒有講清楚。除此之外，Table 2雖然指出MyGO比前人的方法效果更好，但在MKG-W這邊的改進相當有限，甚至可說是微乎其微，在說服力上會稍差一些。如果要改善這點，作者可以再解釋一下，為何MyGO在DB15K這邊的進步相對稍多，而在MKG-W卻沒有那麼亮眼。

如果這篇被reject，可能的原因：

一、這篇論文的進步相對有限。

二、如下所示，這篇論文的作者，明明引用了一大堆他自己以前的論文，卻沒有把這些論文的數據放進Table 2進行比較。他引用了這些論文，代表他知道這些論文的存在，但他卻沒有拿來比較，這點可能會被抓。不僅如此，這些論文的實驗結果，其實比作者在Table 2拿來比較的前人的模型的表現還更好。這有可能被認為是作者刻意挑軟柿子來比較。

平心而論，如果是我審稿，我不太可能因為這種原因而reject這一篇。就第一點而言，以這樣的進步幅度，我自己其實是認同這篇論文有比前人做到更好的（i.e., 我個人主觀上認同，這樣是有做出差距）；至於第二點，雖然作者引用了自己以前的好幾篇論文，卻又不跟它們做比較（e.g., 沒有挑[49]裡面最好的設定，也就是AdaMF-MAT來比較，也沒有跟[48]比較），但請注意，這兩篇論文的發表時間都是2024年。平心而論，遮住作者名字不看，很顯然地，我不認為一篇2024年發表的論文，不跟另外兩篇2024年發表的論文比較，是一個多麼罪大惡極的事情。真要說的話，明明引用了卻不比較，觀感是稍微不佳，但這問題其實是也還好。

以上就是我假設性的討論。請注意這不代表我認為這篇該被reject。

個人不負責任主觀總評：Accept

簡單來說：我覺得這篇雖然可以抓出一點點問題，但是問題不大，瑕不掩瑜。畢竟，想法清楚、方法明確、數據也不錯，我覺得整體是挺好的。大概就這樣。

結論：各位，2024年4月了。但我們還是可以繼續go，繼續go。以上！

然後我真是瘋了，怎麼居然就寫了這麼長……說不定這篇會變黑歷史，然後我就會轉成限好友閱覽了

york 2024.04.25