許多事物都有不同稱呼,比如碳酸飲料又名汽水,毛衣又名針織衫,美式足球又名橄欖球。這些名稱差異有的是語言功能使然,有的是在反映文化上的細微差異,也有單純因為地域不同,所以有同樣的東西有不同的稱呼。
COVID-19 就是一個非常具有代表性的例子。先前,我們必須學會辨識大家用來指稱新型冠狀病毒的每個詞組,以確保為來自世界各地的搜尋者呈現優質且及時的資訊,讓大家都能從世界衛生組織、美國疾病控制與預防中心等值得信賴的衛生主管機關獲得正確情報。如今一年過去,疫苗名稱又為我們帶來了類似的挑戰。但和先前不同的是,我們現在有了 Multitask Unified Model (MUM) 這項新工具。
了解針對疫苗資訊的搜尋
根據我們的分析,AstraZeneca、CoronaVac、Moderna、Pfizer、Sputnik 等廣泛使用的疫苗在全世界共有超過 800 種名稱。使用者在搜尋疫苗資訊時,可能會使用「Coronavaccin Pfizer」、「mRNA-1273」、「CoVaccine」等各式各樣的關鍵字。
我們是否能正確識別所有的疫苗名稱,對於使用者能否獲得可靠的最新疫苗資訊至關重要。然而,要想辨識出全球使用者對於疫苗的不同稱呼,就得付出大量的時間成本,以人工而言需要幾百小時。
但現在有了 MUM,我們就可以在短短幾秒鐘內辨識出 800 種以上超過 50 種語言用來稱呼疫苗的詞語。在驗證 MUM 的搜尋結果後,我們已能將這個模型應用在 Google 搜尋服務中,幫助使用者找到全世界有關 COVID-19 疫苗的優質及時資訊。
在搜尋中顯示有關 COVID-19 疫苗的可靠資訊
跨語言轉移知識
MUM 之所以能在幾秒內完成一項原本需要數週時間的工作,就是因為具有知識轉移能力。MUM 能夠從本身接受訓練的超過 75 種語言中學習並轉移知識。以閱讀一本書為例,如果你會多種語言,就可以在閱讀後用你會的其他語言來分享書中重點(取決於你的精通程度),因為你對這本書的理解不是取決於對語言或翻譯的依賴。MUM 對於不同語言知識的轉移也很類似這樣的概念。
MUM 也因為具有知識轉移能力,所以不需要從每一種新語言中學習新的能力或技能。這種跨語言遷移學習能力可以幫助我們快速擴展系統的改善,即使沒有太多訓練資料也是如此。這在一定程度上要歸功於 MUM 的樣本效率;換句話說,相較於之前的模型,MUM 在完成同一件工作時需要的資料量要少得多。以疫苗名稱來說,只需要一小部分官方疫苗名稱作為樣本,MUM 就能快速識別這是疫苗在不同語言間的名稱。
使用 MUM 來改善 Google 搜尋
MUM 的第一個應用讓我們能幫助世界各地的使用者及時取得關鍵資訊,我們期待 MUM 在未來可以透過多種方式讓 Google 搜尋變得更實用。在我們早期的測試結果中顯示,MUM 不僅可以在許多面向上改進我們現有的系統,還可以幫助我們打造全新的方式來探索和搜尋資訊。