數十年的研究導致了當今人工智慧的快速發展。今天,我們宣佈了人們準備受益的三種新方式。
我在 1990 年第一次接觸神經網路是在 1990 年。當時,人工智慧社區中的許多人對神經網路的潛力感到興奮,這令人印象深刻,但還無法完成重要的現實任務。我也很興奮!我的畢業論文是關於使用並行計算來訓練神經網路,認為我們只需要 32 倍以上的計算能力就可以到達那裡。我離得很遠。當時,我們需要 100 萬倍的計算能力。
短短的 21 年後,隨著計算能力呈指數級增長,是時候再次破解神經網路了。2011 年,我和谷歌的其他一些人開始使用從在線影片中隨機選擇的數百萬幀來訓練非常大的神經網路。結果是顯著的。沒有明確的訓練,系統會自動學會識別不同的物體(尤其是貓,互聯網上到處都是貓)。這是人工智慧的一個變革性發現,在谷歌和其他地方仍在進行的一系列成功中。
我分享了我自己的神經網路歷史,以說明雖然人工智慧的進步現在可能感覺特別快,但它來自一個漫長的進步弧線。事實上,在 2012 年之前,計算機很難看到、聽到或理解口頭或書面語言。在過去的 10 年裡,我們在人工智慧方面取得了特別快的進展。
今天,我們對谷歌在人工智慧方面取得的許多最新進展感到興奮 —— 不僅在技術方面,而且在負責任地部署人工智慧方面,以説明世界各地的人們。這意味著在 Google Cloud 中部署 AI,在我們的產品中,從 Pixel 手機到 Google 搜索,以及科學和其他人類活動的許多領域。
我們意識到人工智慧作為一種新興技術所帶來的挑戰和風險。我們是第一家發佈和實施一套人工智慧原則的大公司,遵循它們實際上(有些人可能會認為違反直覺)使我們能夠專注於在對每個人都有幫助的技術上取得快速進展。正確開發人工智慧需要集體努力 —— 不僅涉及研究人員,還涉及領域專家、開發人員、社區成員、企業、政府和公民。
我很高興今天在人工智慧的三個變革領域發表聲明:首先,利用人工智慧使技術能夠以更多語言訪問。其次,探索人工智慧如何增強創造力。第三,人工智慧促進社會公益,包括氣候適應。
1. 透過 AI 支援 1000 種語言
語言是人們如何交流和理解世界的基礎。因此,這也就不足為奇了,這也是人們與技術互動的最自然的方式。但是,全世界有超過 7000 種語言在使用,今天只有少數語言在網上得到了很好的體現。這意味著在網路上的文本上訓練語言模型的傳統方法無法捕捉到我們全球交流方式的多樣性。從歷史上看,這一直是我們實現使世界資訊普遍可訪問和有用的使命的障礙。
這就是為什麼我們今天宣佈 “1000 種語言倡議”,這是一項雄心勃勃的承諾,旨在建立一個人工智慧模型,以支援 1000 種最常用的語言,為全球邊緣化社區的數十億人帶來更大的包容性。這將是一項多年的工作 —— 有些人甚至可能稱之為大膽創新計劃 —— 但我們已經在這裡取得了有意義的進展,並清楚地看到了道路。技術一直在快速變化 —— 從人們使用它的方式到它的能力。我們越來越多地看到人們通過圖像、影片和語音等新方式查找和共享資訊。我們最先進的語言模型是多模式的,這意味著它們能夠解鎖這些不同格式的資訊。隨著這些巨變而來的是新的機會。
作為我們這一計劃的一部分,以及我們對多模態的關注,我們開發了一個通用語音模型(USM),該模型經過 400 多種語言的訓練,使其成為迄今為止語音模型中最大的語言覆蓋範圍。隨著我們擴展這項工作,我們正在與世界各地的社區合作,以獲取具有代表性的語音數據。我們最近宣佈在 Gboard 上通過與非洲的研究人員和組織密切合作來創建和發佈數據,為 9 種非洲語言提供語音輸入。在南亞,我們正在積極與地方政府、非政府組織和學術機構合作,最終收集來自所有地區方言和語言的代表性音頻樣本。
2. 用 AI 賦能創作者和藝術家
人工智慧驅動的生成模型有可能釋放創造力,説明不同文化的人們使用影片、圖像和設計以他們以前無法表達的方式表達自己。
我們的研究人員一直在努力開發在品質方面處於領先地位的模型,生成人類評分者比其他模型更喜歡的圖像。我們最近分享了重要的突破,將我們的擴散模型應用於影片序列,併為一系列文本提示生成長連貫影片。我們可以結合這些技術來製作影片 —— 今天,我們第一次分享人工智慧生成的超解析度影片:
我們很快將把我們的文本到圖像生成技術引入 AI Test Kitchen,它為人們提供了一種了解、體驗新興 AI 技術並給出反饋的方式。我們期待在 AI 測試廚房第 2 季中聽到使用者對這些演示的反饋。您將能夠使用「城市夢想家」建造主題城市,並設計友好的怪物角色,這些角色可以在「搖擺」中移動、跳舞和跳躍 —— 所有這些都通過使用文本提示。
除了 2D 圖像之外,文本到 3D 現在已成為 DreamFusion 的現實,它產生了可以從任何角度查看的三維模型,並且可以合成到任何 3D 環境中。研究人員還通過 AudioLM 在音訊生成領域取得了重大進展,該模型僅通過聽音訊來學習生成逼真的語音和鋼琴音樂。與語言模型可以預測文本提示後面的單詞和句子的方式相同,AudioLM 可以預測在音訊提示幾秒鐘後應遵循哪些聲音。
在開發這些工具時,我們正在與全球創意社區合作。例如,我們正在與使用Wordcraft的作家合作,Wordcraft 建立在我們最先進的對話系統 LaMDA 之上,以試驗 AI 驅動的文本生成。您可以在 Wordcraft Writers Workshop 上閱讀這些故事的第一卷。
3. 利用人工智慧應對氣候變化和健康挑戰
人工智慧在應對氣候變化的影響方面也具有巨大潛力,包括幫助人們適應新的挑戰。最嚴重的是野火,今天影響著數十萬人,並且頻率和規模都在增加。
今天,我很高興地告訴大家,我們已經推進了衛星圖像的使用,以訓練人工智慧模型,以實時識別和跟蹤野火,幫助預測它們將如何演變和蔓延。我們已經在美國、加拿大、墨西哥推出了這個野火跟蹤系統,並正在澳大利亞的部分地區推出,自 7 月以來,我們已經報導了美國和加拿大的 30 多起大型野火事件,幫助我們的使用者和消防團隊在 Google 搜索和地圖中的觀看次數超過 700 萬次。
我們還使用人工智慧來預測洪水,這是氣候變化加劇的另一種極端天氣模式。我們已經幫助社區預測洪水何時來襲以及水深 ——2021 年,我們通過 Google 搜索和地圖向 2300 萬人發送了 1.15 億條洪水警報通知,説明挽救了無數生命。今天,我們分享的是,我們現在正在將覆蓋範圍擴大到南美洲(巴西和哥倫比亞)、撒哈拉以南非洲(布吉納法索、喀麥隆、乍得、剛果民主共和國、象牙海岸、迦納、幾內亞、馬拉威、奈及利亞、塞拉利昂、安哥拉、南蘇丹、納米比亞、利比里亞和南非)和南亞(斯里蘭卡)的更多國家。我們使用了一種稱為遷移學習的人工智慧技術,使其在可用數據較少的領域發揮作用。我們還宣佈在全球範圍內推出 Google FloodHub,這是一個顯示洪水可能發生的時間和地點的新平臺。未來,我們還會將這些資訊引入 Google 搜索和地圖,以説明更多人在洪水情況下安全出行。
最後,人工智慧正在幫助資源貧乏地區提供更多的醫療保健服務。例如,我們正在研究人工智慧如何幫助讀取和分析低成本超聲設備的輸出,為父母提供他們在懷孕早期識別問題所需的資訊。我們還計劃繼續與護理人員和公共衛生機構合作,通過我們的自動視網膜疾病評估工具(ARDA)擴大糖尿病視網膜病變篩查的可及性。通過 ARDA,我們已經在印度、泰國、德國、美國和英國等國家成功篩查了超過 150000 名患者,包括部署的使用和前瞻性研究 —— 僅在 2022 年就篩查了一半以上。此外,我們正在探索人工智慧如何説明您的手機檢測呼吸和心率。這項工作是 Google Health 更廣泛願景的一部分,其中包括讓任何擁有智能手機的人都能更輕鬆地獲得醫療保健。
未來幾年的人工智慧
我們在神經網路架構、機器學習演算法和機器學習硬體新方法方面的進步幫助人工智慧為數十億人解決了重要的現實問題。還有更多。我們今天分享的是對未來的充滿希望的願景 —— 人工智慧讓我們重新想像技術如何提供説明。我們希望您能加入我們,探索這些新功能,並使用這項技術改善世界各地人們的生活。
以上內容來自 [ Google Blog ] blog.google/technology/ai/ways-ai-is-scaling-helpful