前往
大廳
主題

【MyGO】MyGO論文?!簡介&評價論文 "MyGO: Discrete Modality Information......"

york | 2024-04-25 22:30:31 | 巴幣 4000 | 人氣 65

       前言
       (直接借自https://imgur.com/7MbGS4l)

       對,各位觀眾,你沒看錯。最近有出現了這麼一篇論文,就叫「MyGO」:
       Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Binbin Hu, Ziqi Liu, Huajun Chen, Wen Zhang, “MyGO: Discrete Modality Information as Fine-Grained Tokens for Multi-modal Knowledge Graph Completion,”arXiv 2404.09468.

       (附帶一提,論文全名太長了,塞不進標題......)

       論文連結在這裡:

       話說是這樣的,前幾天呀,當小弟我還在參加某學術會議的時候(心得的部分已經發到plurk上面了,限好友,有興趣的話可以加一下好友),正好看到FB有某粉專分享了這麼一篇論文。這不看不知道,一看嚇一跳,居然論文標題就一個斗大的MyGO掛在那邊,還是個電腦科學的論文。身為一個給〈春日影〉做過中文填詞的MyGO粉絲,這我可憋不住了。當下就跟我一個學弟講:這人真會玩!既然這樣,我就要仔細拜讀一下這篇論文,給它做個review評價它的好壞,還要發篇文章來給網友講講。
       對,歸根究柢,這一切都是:
       

       好吧,可問題是,我說要給論文評價,可我的人權呢?
       那如果被這麼說,我還真只能承認。小弟我對KG或multi-modal方面的理解不算太多。是大概懂它們在幹嘛,但再怎麼說也算不上專家。要真是有個學術會議找我來審這篇,我大概也會有點猶豫。不過,沒辦法,看MyGO導致的,就實在受不了,好想跟著一起玩哏,一起迷失(x
       所以還是寫了這篇文章。因此這裡會有一些警告:
       、本人並非此領域的專家,評價或意見,相對比較是偏外行人的角度,也有一定可能出錯。如您是相關領域的專家,看到本文章有錯誤之處,請不吝指出,我很樂意接受任何批評指教。
       、雖說是評價,但即使是學術論文的評價,本身還是存在主觀之處。同一篇論文給不同人審稿,也往往會得出不同評價。請各位不要太當真。畢竟,本評價多少帶有我本人的主觀與偏見嘛。
       三、如果這篇文章講得不怎麼清楚,也希望可以給個回饋,我就比較明白要怎麼改進。
       最後附上一點小小的人權。小弟我還是有幫幾個學術會議審稿的,雖然專長不是在同個領域……
       (剛剛才上去抓下來的審稿證明。私人資訊有塗掉)

       先備知識
       在開始一起迷失/MyGO之前,有幾個簡單的先備知識,還是要先講一下。

       - Knowledge Graph(KG)是什麼?有什麼用?
       KG的中文翻譯通常叫作「知識圖譜」(見https://zh.wikipedia.org/zh-tw/知識圖譜)。簡單來說,這東西裡面包含兩種「知識」類的資訊,第一種以(實體1-關係-實體2)的方式儲存,第二種則是關於每個「實體」本身的描述資訊。
       聽起來很混亂?實體是啥?
       舉個例子吧。有可能「實體1」是「MyGO動畫」,「關係」是「屬於」,「實體2」是「2023年7月新番」。那麼,這樣存下來的知識代表什麼?

       MyGO動畫-屬於-2023年7月新番

       沒錯,它描述了兩個事物之間的關係!
       另一個例子是這樣的:

       〈春日影〉-演奏者是-MyGO樂團
       ……
       ……
      
       
       不屬於CRYCHIC的春日影QQ(附帶一提,也可以再加上一個知識「〈春日影〉-演奏者是-CRYCHIC樂團」,即使這樣重複也是沒問題的!)
       好吧,那麼言歸正傳,KG這東西有什麼用?
       簡單來說,KG把這些知識用一個結構化的方式聯繫起來。這讓其他的程式可以很簡單地去「理解」知識。大家或許知道ChatGPT對於某些知識方面的問題,有時候會給出不正確的回應。如果我們能夠給ChatGPT提供正確而詳盡的KG,它就可以按照這些資訊,理解「MyGO這部動畫是2023年7月新番」的事實,而給出正確的回應。
       當然,除此之外的用途還很多,這只是舉個例子而已。

       - Multi-modal Knowledge Graph Completion(MMKGC)是什麼?
       Multi-modal Knowledge Graph Completion(MMKGC)是這篇論文主要處理的問題。首先我們從multi-modal這個詞談起。這個詞的中文翻譯應該叫作「多模態」。在這裡,所謂的「模態」指的是資訊的形式。影像是一種模態,文字則是另一種,語音又是另一種。不同模態的資訊形式是不同的,但它們都可以乘載資訊。
       就像人類可以同時透過視覺與聽覺去感知世界,如果我們引入多模態的概念,讓AI也能夠看到多種不同形式的資訊,它能夠做到的事情就會增加。這是現在AI相關研究很重要的一個方向!
       接下來我們談Knowledge Graph Completion(KGC)。就像前面所說,用KG的方式描述資訊有其方便之處。但問題是,這些資訊往往需要一筆一筆輸入。聽起來很理所當然,畢竟知識總是得一筆一筆累積,可是──欸,如果能讓AI自己學會去找出不同實體的關係呢?
       聽起來匪夷所思,就像是無中生有變出一些知識來,這怎麼能做到?但我們舉個例子吧:

       千早愛音-屬於-MyGO樂團
       高松燈-屬於-MyGO樂團

       如果我們已知這兩者,是不是可以「憑空」變出以下的知識呢?

       千早愛音-屬於同個團體-高松燈

       應該可以吧?所以,KGC還可以做的。而且,這邊筆者還沒提到,在KG裡面每一個「實體」都可以有它自己的描述資訊。透過整理這些資訊,有機會可以按圖索驥,推理出各式各樣的,不同實體之間的關聯性。就這一點來說,另一個例子如下:

       千早愛音-同學-高松燈
       MyGO動畫(作為實體的描述):千早愛音在高中一年級的春天將近結束之際,才由英國回到日本,在奇怪的時間點轉學到羽丘女子學園。 (摘自維基百科: https://zh.wikipedia.org/zh-tw/MyGO!!!!!)

       在這個情況下,我們有一組關係的描述,另外還有一個看起來好像不怎麼相關的實體「MyGO動畫」的描述。那麼,我們或許可以推知:

       高松燈-就讀-羽丘女子學園

       因為千早愛音就讀這所學校,而她又是高松燈的同學。這樣的推理同時利用了實體(MyGO動畫)的描述,也利用了兩個實體之間之間的關係(千早愛音是高松燈的同學),而得以抽取出額外的知識。

       那麼,我們現在知道了multi-modal,又知道KGC了,那麼MMKGC是?
       其實,multi-modal knowledge graph completion的目標,就是試圖去推理出,多模態的KG裡面,各種實體之間的關聯性(原先可能它們存在的某些關聯性,並未被準確標註出來)。其中,在多模態的知識圖譜當中,每個實體的描述可能包含不只一種模態的內容。比方說,在這篇論文的情境裡面,它的所謂「多模態」包含了文字與影像的資訊。也就是說,它裡面對實體本身的描述,可能包含文字或影像的資料。透過從這些資訊裡面去推理,這篇論文試圖推斷出原先不存在的,不同實體之間的關係性!
       那這有什麼用呢?用途可大了!畢竟,如果能讓AI自己通靈出這些資訊,那麼人類就不需要把這些「兩個實體之間的關係性」都要一個一個輸入,自然方便很多。

       論文簡介
       為了進行所謂的MMKGC,這篇論文試圖善用原先的KG當中所包含的,關於多個模態的資訊──具體而言,即是文字與影像。透過善用這些資訊,希望可以抓出一些額外的實體之間關係的資訊,為了做到這點,先前的做法大多是將影像的資訊單獨抽取出一組固定維度的特徵,對文字資訊也抽取出另外一組固定維度的特徵,並以這些特徵為基礎進行後續的處理。
       然而,這篇論文發現到,這樣並不一定是最好的方法。前人的做法所抽取出的特徵,是對於整張影像/整段文字的特徵,是整體的資訊。這樣的方法會讓比較局部的特徵無法凸顯出來。
       論文裡面舉了這麼一張圖作為例子:
       
       這張圖是對於實體「Tyrannosaurus Rex」,也就是「暴龍」本身的描述,裡面提到暴龍的各種特徵,包含頭部、牙齒等等。然而,這些資訊都是相對局部的資訊。如果對整段描述去抽取特徵(一個簡單的比喻,就是簡短地去總結這一整段句子),恐怕會忽略掉這些資訊。同理,左邊的圖片也有類似的狀況:暴龍的一些局部特徵,恐怕以整張圖的尺度來說,或許就不會被突顯出來。然而,這些資訊仍然是有潛力可以協助AI去推理出不同實體之間的關聯性的。
       為此,這篇論文提出了MyGO的方法!方法的說明圖如下:
       
       簡單來說,它就是對於文字與影響的每個局部的部分,都去抽取一組特徵。如此一來,抽取出的特徵就可以保留這些局部的資訊,以方面後續處理。
       至於為什麼這個方法叫作MyGO?根據論文的說法,那當然是因為這個方法的全名叫作ModalitY information as fine-Grained tOkens啦!
       ???
       ???
       ???
       這硬湊出來的吧......
       沒,反正我們可以繼續go沒關係。還要再八個月才到2025年1月嘛XD
      

       好,言歸正傳,其實這篇總共有提出三個方法改善MMKGC,但後面的部分就有點複雜。相較之下,我個人覺得這篇的第一個方法:對局部抽取特徵,而不是對整張影片/整段文章抽取特徵,既簡單又合理,才是比較有意思的。所以後面兩個方法我這邊就略過不提了(否則這篇文章的複雜度會太高QQ)。不多說,直接快轉到實驗結果的部分:
       

       這裡作者所列出的所有數據,都是越高越好。可以看出,MyGO這個方法勝過了其他作者有提及的,前人所提出過的方法。這也說明了MyGO確實是個好方法。而後續的實驗結果,也說明了這篇論文所提出的改進的方向,基本上都有帶來相對好的結果:
       
       這方面的實驗叫作ablation studies。具體的作法是,把提出的整個模型,每一次去除掉一個作者提出的方法(總共有三個大方法),或者用別的方式替代之後,測試看看結果是否有變差。如果有變差,代表提出的方法是有用的,才會導致,在拿掉這個方法之後,效果就變差了。
       而這些實驗結果確實證明了,作者的方法是有用的,因為full model(作者提出的整個方法)好過所有其他的方法/設定。論文大致上來說就是這樣了。欲知細節,大家還是可以直接去讀看看。

       評價
       好了,現在來到比較嚴肅的環節了。
       這篇論文並沒有明說它投稿的是哪一個學術會議或期刊,但我看這篇論文的左上角有寫"ACM MM 2024",那我就當作是這個好了。投稿學術會議的結果,通常只有兩大類,一類是accept(代表被接受,可以在會議上發表),一類是reject(代表論文不被接受,通常是被認為不夠格在會議上發表,當然也有一些比較少見的狀況,比如論文的主題跟會議的方向不切合之類的)。首先,我這邊會直接先提論文的優缺點;然後,我會做一個假設性的討論,指出「如果這篇被reject的話,可能會是什麼原因」;最後,我會給出個人的主觀評價。
       但在這之前,一樣有兩個前提要先聲明:
       一、本人不是做KG的,所以我假設作者沒有遺漏掉任何前人的研究論文。這點對於評估原創性有極大影響。畢竟,如果有人已經提出類似的方法,而自己是第二個提出的,那麼原創性一定會大大下降。
       二、本人沒有給ACM MM審過稿,也沒有投稿過ACM MM,我這邊純粹以我個人主觀去做判斷。此外,本人並不是做KG的,所以評價可能不準確。

       優點:這篇論文的思路跟方法很直接易懂,圖片(Figure 2)也相當清楚,整體來說論文是有成功地把想法表達出來。除此之外,論文的實驗數據,也都證明了作者提出的方法,確實有其用處。事實上,我甚至可以說,光看Figure 2加上Table 2跟3的數據,基本上就保證了這篇論文不會拿到太差的評價。
       缺點:論文在一些細節的描述有不清楚的地方,比如Equation 7的h和r是哪裡來的,就沒有講清楚。除此之外,Table 2雖然指出MyGO比前人的方法效果更好,但在MKG-W這邊的改進相當有限,甚至可說是微乎其微,在說服力上會稍差一些。如果要改善這點,作者可以再解釋一下,為何MyGO在DB15K這邊的進步相對稍多,而在MKG-W卻沒有那麼亮眼。

       如果這篇被reject,可能的原因:
       一、這篇論文的進步相對有限。
       二、如下所示,這篇論文的作者,明明引用了一大堆他自己以前的論文,卻沒有把這些論文的數據放進Table 2進行比較。他引用了這些論文,代表他知道這些論文的存在,但他卻沒有拿來比較,這點可能會被抓。不僅如此,這些論文的實驗結果,其實比作者在Table 2拿來比較的前人的模型的表現還更好。這有可能被認為是作者刻意挑軟柿子來比較。

       平心而論,如果是我審稿,我不太可能因為這種原因而reject這一篇。就第一點而言,以這樣的進步幅度,我自己其實是認同這篇論文有比前人做到更好的(i.e., 我個人主觀上認同,這樣是有做出差距);至於第二點,雖然作者引用了自己以前的好幾篇論文,卻又不跟它們做比較(e.g., 沒有挑[49]裡面最好的設定,也就是AdaMF-MAT來比較,也沒有跟[48]比較),但請注意,這兩篇論文的發表時間都是2024年。平心而論,遮住作者名字不看,很顯然地,我不認為一篇2024年發表的論文,不跟另外兩篇2024年發表的論文比較,是一個多麼罪大惡極的事情。真要說的話,明明引用了卻不比較,觀感是稍微不佳,但這問題其實是也還好。
       以上就是我假設性的討論。請注意這不代表我認為這篇該被reject。

       個人不負責任主觀總評Accept
       簡單來說:我覺得這篇雖然可以抓出一點點問題,但是問題不大,瑕不掩瑜。畢竟,想法清楚、方法明確、數據也不錯,我覺得整體是挺好的。大概就這樣。
       
       結論:各位,2024年4月了。但我們還是可以繼續go,繼續go。以上!
       然後我真是瘋了,怎麼居然就寫了這麼長……說不定這篇會變黑歷史,然後我就會轉成限好友閱覽了
       york 2024.04.25



創作回應

倉旂瀞
完全符合那句「看MyGO看的...」的狀況XDDDD
2024-04-26 00:20:44
york
還不只是這樣呢,這篇論文放程式碼的地方也被各種mygo哏攻佔了
https://github.com/zjukg/MyGO/issues
只能繼續玩一輩子的mygo哏了XD
2024-04-26 00:54:46

更多創作