【展望後疫2022年新趨勢5】多任務多模態AI加速商品化,企業流程虛實整合有更多新選擇

1{icon} {views}

微軟舉例,以Transformer打造的多任務AI模型Florence v1.0,可用來優化自動加註圖說功能。未優化前,該功能形容一張照片是一群棒球員站在草皮場上,優化後則是一群橄欖球員正在慶祝,更貼切照片內容。

圖片來源: 

微軟

一套模型通吃多任務,是邁向通用AI的關鍵一步。這個頂尖專家努力鑽研數十年的題目,在2021年,有了新的大變化。各大科技巨頭相繼發現,原本擅長自然語言處理(NLP)的Transformer架構,也能用來同時解決文字、影像,甚至是影片等不同模態的任務,效果還更好。

比如在2021年10月,微軟亞洲研究院揭露了一款超強OCR工具TrOCR,完全不需要電腦視覺專用的卷積網路(CNN),單用一套Transformer就能辨識影像和生成文字,手寫辨識和影印辨識兩種任務更達到高階水準。

OCR工具用途廣泛,銀行票據手寫辨識、街景招牌辨識、發票辨識都少不了它,如何讓數位世界理解真實世界資訊的意義,OCR正是最關鍵的核心技術。這個技術的演進,帶來的不只是應用面的提升,更是會對虛實整合應用帶來根本性的影響,例如企業就更容易將實體流程,串接到數位應用上,來展開更自動化的流程。

Transformer:從跨域嚐鮮到快速爆發

Transformer架構是這場多任務、多模態AI競賽的主角。它是NLP專用架構,2017年問世後,改寫了NLP設計思維,堪稱NLP分水嶺的大型語言預訓練模型BERT和能生成真人難以辨識文章的模型GPT-3,都以Transformer為基礎。

2020年夏天,臉書開出第一槍,將Transformer用於文字處理以外的電腦視覺任務,打造一套影像辨識模型DETR,不僅簡化了辨識工作,表現還達到Faster R-CNN般的高階水準。Google也緊追在後,以Transformer實作電腦視覺任務,打造出廣受AI社群愛戴的影像辨識模型ViT,號稱比CNN網路更有效率。

這兩項研究一發表,立刻引起各大AI領袖和ML社群關注,因為,兩大巨頭都證實了Transformer的電腦視覺潛力,很可能擠下獨佔鼇頭的CNN。他們也證明,Transformer有能力處理不同模態的任務。

兩大巨頭的研究揭開序幕後,2021年迎來Transformer多任務、多模態AI的快速爆發潮。就重點模型來說,年初,OpenAI先是以Transformer架構打造可同時處理影像和文字這兩種模態資料的模型DALL·E,號稱是影像版GPT-3,還推出能配對文字和圖片的CLIP模型。臉書也隨之發表一系列Transformer改良模型,其一是UniT,能同步處理兩種模態資料和7種任務,NLP、自然語言理解(NLU)、影像辨識、物件偵測等任務都能解。

貨櫃屋改裝後可應用在哪些地方呢?

金誠貨櫃屋裝潢,可依客戶需求設計,不論是渡假屋、含廁所小套房、檳榔攤、警衛室、小吃店、展示間、辦公室、工具材料間、車庫,皆可依顧客需求搭配設計

塑膠射出成型加工商品有哪些?

塑膠粒預熱進料 : 將塑膠粒放入漏斗中,並且加溫預熱。可以乾燥塑膠粒並節省熔化時間

5噸電動堆高機 & 2噸立式堆高機

不想忍受柴油堆高機帶來的廢氣汙染,電動堆高機將會是很好的選擇

好的茗茶,更需要密封性高的茶葉罐,才能留住香氣!

鴻和興精密工業股份有限公司,是由在台灣專業生產茶葉罐、奶粉罐具有領先地位的光華金屬所投資組織成立的一家專業製造包裝材料之馬口鐵罐製造廠,秉持的專業、品質、服務、效率為各大客戶服務。

年中,Google在自家年度開發大會I/O上,首度揭露兩款能同時處理文字和影像的Transformer模型MUM與LaMDA,甚至還預告要用來改善Google搜尋的使用者體驗。同時,北京智源AI研究院釋出的悟道2.0模型,不只能文生文、圖生文,還能圖文生文,興詩作詞、文案和影像生成都不是問題。

而DeepMind,也用Transformer打造精準預測蛋白質結構的AlphaFold 2,再次證明Transformer的普適性。DeepMind後來還發表跨模態模型Perceiver IO,能精準分類文本、影像、影片和用來表示物件外觀的點雲數據。

從研究實驗走向商用化,企業將有更多選擇

雖然這些多任務、多模態AI系統多處於研究實驗階段,但也有些已在實用上拿下好成績。比如,史丹佛大學開源一套Transformer模型ConVIRT,可自動替X光片加上文字註解。臉書則利用多模態模型來偵測仇恨言論,能一次閱讀文字、圖片和影片等內容並歸類為有害或無害。

甚至,微軟年底發展出新一代電腦視覺基礎模型Florence v1.0,除了通吃各電腦視覺任務外,還能處理影像與文字任務,拿下TextCaps等多項挑戰賽榜首。但這不單是研究成果,微軟強調,Florence v1.0已整合至Azure雲平臺,來優化自動添加圖說、加標籤、自定義物件偵測等功能。

微軟更透露,Florence系列模型未來還能作為預訓練模型,企業只要提供少樣本資料,就能微調模型,打造成所需的預測系統。而且,微軟還打算用Florence模型來改善微軟365的智慧相片功能,以及產業雲中的商品圖片合規性檢查。

在公雲業者手上,多任務AI已經開始成為商用化產品的新服務。按照微軟近年加速將AI技術商品化的策略,開頭提到的OCR工具TrOCR,很可能明年就用來改善微軟原有的企業級OCR服務,甚至打造成一項新服務,供企業用來打造自己的OCR工具。

搶進Transformer多任務、多模態AI商機的不只微軟。Line在年末的全球開發者大會中,揭露一款企業級AI服務HyperCLOVA,該服務就以同名的大型多語言模型HyperCLOVA為核心,不只能生成廣告文案、摘要等,還能作為企業訓練NLP模型的幫手,比如產生訓練資料集、開放預訓練模型來讓企業使用者微調。Line預告,接下來,他們還要讓HyperCLOVA學會處理影像資訊,來提供結合圖文分析能力的服務。

對企業來說,明年,將見到更多以Transformer為基礎的多任務、多模態AI服務,不僅不需要耗費訓練成本自行開發,這些模型,還將提供更多新選擇。像是,多任務多模態AI中,圖片辨識AI、OCR文字AI結合成單一的圖文AI服務,就已跨出商品化的第一步:微軟Florence已成為Azure平臺認知服務的加值功能,也有機會變成企業可以客製使用的獨立服務。

許多紙本文件、實體物品上的文字,都需要透過OCR技術,若進一步運用圖文AI,一次取得文字和影像,讓數位世界的App能同步取得文字意義和影像來展開互動,當這樣的多任務多模態AI商用化之後,不只衝擊企業流程自動化,也能帶來更多企業虛實整合應用的新可能。文⊙王若樸

https://www.ithome.com.tw/news/148653

空壓機這裡買最划算!

晨達空壓機秉持著專業空壓機技術、優質快速服務、空壓機合理價格。為您解決工作中需要風量、風壓的問題。

總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。

示波器鮮為人知的使用技巧?

一個典型的示波器通常是盒狀螢幕,有多個輸入連接,示波器至少包括探頭、顯示器和控制面板三部分

信泰電機生產製作:鋁殼電阻、繞線電阻、剎車電阻、煞車電阻、大功率電阻、回升電阻回昇電阻、平衡電阻、陶瓷電阻、模擬負載、大功率繞線電阻器製造、燒機設備規劃及施工、變壓器及電抗器製造、自動控制器材零組件買賣、DC電源供應器製造、電子零組件製造業。