訊飛聽見CTO兼訊飛聽見平臺業(yè)務部總經(jīng)理蘇文暢
2023年12月1-3日,2023T-EDGE全球創(chuàng)新大會暨EDGE AWARDS創(chuàng)新評選在北京 751D·PARK傳導空間舉辦,本次大會主題為「新視野 新鏈接」,邀請國內(nèi)外頂尖創(chuàng)新與商業(yè)領袖齊聚一堂,共同回顧2023年的行業(yè)洞察與發(fā)展,展望未來一年的技術(shù)革新趨勢與可能。
12月1日下午,訊飛聽見CTO兼訊飛聽見平臺業(yè)務部總經(jīng)理蘇文暢在鈦媒體2023T-EDGE大會上發(fā)表了名為《基于AI的內(nèi)容處理革新》的主題演講。
今年,人工智能的應用與迅發(fā)展迅速沖進大眾的視野,行業(yè)也隨之掀起了“百模大戰(zhàn)”。在蘇文暢看來,人工智能的持續(xù)積累為通用人工智能打下了扎實的基礎,現(xiàn)階段通用人工智能已具備文本生成、語言理解、知識問答、邏輯推理等七個維度的多模態(tài)能力。
他表示,之前科大訊飛在人工智能領域已經(jīng)做了大量的工作,包括2008年在語音合成上面,也達到了普通人的普通話水平。在2015年,首次超過了人類速記員的水平,有了這樣的突破才有了后面記錄包括現(xiàn)場同傳場景所做的工作。
隨著時代的發(fā)展,內(nèi)容創(chuàng)作所使用內(nèi)容創(chuàng)作的工具也是在不斷發(fā)展的。AIGC時代,科大訊飛也在思考是不是會有一些新的內(nèi)容創(chuàng)作工具的出現(xiàn),來滿足用戶更多的需求,比如語音轉(zhuǎn)文字后可以直接生成采訪稿件或者會議紀要等。
“認知大模型的出現(xiàn),帶來了解決人類剛需的全新機遇”,蘇文暢說道,“認知大模型一個很重要的變化就是基于算力、算法以及數(shù)據(jù)的整體提升,帶來’智能涌現(xiàn)’,可以讓我們基于一個通用大模型,去做很多任務。”
從最早的語音文字以及翻譯,到現(xiàn)在基于AIGC在記錄和寫作兩個場景了做了一些提升,科大訊飛的產(chǎn)品除了提供在線的C端訪問的端口,也可以提供B端或者G端定制化解決方案。
“我們希望通過之前的AI感知的技術(shù),以及認知大模型相關(guān)的技術(shù)結(jié)合,為我們的企業(yè)、各種組織和個人提供生產(chǎn)力效率的工具,激發(fā)大家的想象力”,蘇文暢如是說。
各位領導、各位嘉賓下午好,我是科大訊飛的蘇文暢,今天會場兩邊有中英雙語字幕,這也是我們訊飛聽見的產(chǎn)品。
今天談到AIGC都會提到AIGC對于內(nèi)容創(chuàng)作的影響,以及對于內(nèi)容創(chuàng)作的機遇。我今天演講主要聚焦于我自己在科大訊飛里面做的業(yè)務,核心聚焦在兩個場景的內(nèi)容處理,一個記錄的場景還有一個寫作的場景。我們從最早的語音轉(zhuǎn)文字以及翻譯,以及基于現(xiàn)在的AIGC在記錄和寫作兩個場景做了一些工作。接下來會跟大家逐步的做一些分享。
科大訊飛一直從1999年成立以來,致力于語音及人工智能相關(guān)技術(shù)研發(fā)以及相關(guān)產(chǎn)業(yè)化,我們也建立了多個國家級平臺,一直致力于讓機器能聽會說,讓機器能理解會思考,用人工智能介紹美好世界。
說到人工智能,之前科大訊飛已經(jīng)做了大量的一些工作,包括2008年在語音合成上面,達到了普通人的普通話水平。在2015年,我們首次超過了人類速記員的水平,有這樣的突破才有了后面記錄包括現(xiàn)場同傳場景所做的工作。后續(xù)我們通過智醫(yī)助理這樣的產(chǎn)品,通過國家級醫(yī)學的考試,也是超過大多數(shù)人類考生的水平。
![]()
5月6號,科大訊飛發(fā)布了星火大模型,6月9號做了升級,對開放式問答還有數(shù)學能力做了升級,8月15號在代碼能力以及多模態(tài)交互上面做了一些升級,以及在“1024”發(fā)布了訊飛星火3.0的版本。
我們發(fā)布認知大模型,獲得了很多業(yè)界的好評,包括在新華社研究院國產(chǎn)大模型報告當中獲得了不錯的成績,麻省理工科技評論方面給予了我們最聰明大模型的稱號。
![]()
認知大模型很重要的變化,基于算力還有算法以及數(shù)據(jù)整體的不斷的提升,帶來了智能的涌現(xiàn),讓我們基于通用大模型做很多的任務。我們總結(jié)起來,當前通用人工智能主要有文本生成、語言理解還有知識問達、邏輯推理7個維度的能力,這些能力對我們改變信息的分發(fā)獲取模式,以及革新內(nèi)容生產(chǎn)模式,全自然交互領域,帶來一些全新的機遇。
大家都知道內(nèi)容創(chuàng)作是需要使用這樣的工具,隨著時代的發(fā)展,內(nèi)容創(chuàng)作所使用內(nèi)容創(chuàng)作的工具也是在不斷發(fā)展的。尤其到近現(xiàn)代,處理內(nèi)容創(chuàng)作的文檔,從最早的比較注重排版到移動互聯(lián)網(wǎng)時代比較注重團隊協(xié)作以及隨時隨地可訪問性。
在AIGC時代,我們也在思考是不是會有一些新的內(nèi)容創(chuàng)作工具的出現(xiàn)。每個人都會有這樣的寫作的場景,有些任務會很緊張,沒有足夠時間完成,另外很多時候被領導或者客戶安排了任務,沒有相應的靈感,不知道該從何下筆,即使寫了,寫出來之后因為各方面原因,個人寫作技巧也不是很好,會浪費大量的時間。因此,我們也會感到非常焦慮或者帶來一些壓力。
針對這個,我們最早的時候涉足內(nèi)容處理領域,在2015年基于語音轉(zhuǎn)文字技術(shù)開發(fā)了一些APP和網(wǎng)站,能夠很快速的記錄,便于分享成為了可能。在所有記錄方式中,記錄方式有很多種,可以采用手寫或者使用錄音,錄音有一個問題錄是非常容易的,事后回聽非常痛苦,這場會議多長時間就花費多長時間。
過往,我們跟很多用戶做一些交流,他們會給我們反饋。我們把語音轉(zhuǎn)成一個文字,會后他可以看相應的內(nèi)容,可以快速的瀏覽,他想基于此做一些采訪稿或者歇一歇會議紀要之類的,更深層次的問題?;谶@些,剛好AIGC認知大模型的出現(xiàn),為我們解決這一類問題帶來了新的機會。
我們在5月6號訊飛星火發(fā)布的時間,發(fā)布了希望訊飛寫作的產(chǎn)品,最早的時候這個產(chǎn)品展示了一段錄音一鍵成稿,不管做采訪還是開會,需要上傳一段錄音幫你生成新聞稿,或者有這樣一段錄音幫你生成一篇會議紀要這樣的一個場景。隨著多個版本不斷的迭代,對話寫作、模板寫作、寫作工具,還有個性化素材是我們的四大核心功能,能夠幫助用戶更好的完成自己的寫作,讓你更會寫。
具體來說,第一個寫作模式就是對話式寫作,從后臺去看,很多用戶還是很樂于使用對話式寫作的,這個可以很好的激發(fā)靈感以及幫助你做一些頭腦風暴,讓你獲取更多的信息,方便你后期的寫作。
我們也圍繞對話設計了一些方便你寫作的菜單提示,以及方便你完成多輪交互。對于用戶來說,帶來很大便捷,使用起來有很大的發(fā)揮空間。我們還針對營銷、職場、新聞、學習、創(chuàng)作各大類的場景,訂制了很多模板,方便不是特別熟悉的用戶能夠快速完成自己寫作的工作。
![]()
寫作本身除了產(chǎn)生相應的內(nèi)容,過程當中還需要做一些校度以及改寫或者摘要,我們提供了規(guī)整、摘要、改寫、擴寫、續(xù)寫等針對寫作場景的工具,方便更快速的寫作。
我們把訊飛寫作和記錄相應的產(chǎn)品做了打通,提供軟硬件一體的方案。目前的產(chǎn)品除了提供在線的C端訪問的端口,也提供B端或者G端定制化解決方案。
我們希望通過之前的AI感知的技術(shù),以及認知大模型相關(guān)的技術(shù)的結(jié)合,為企業(yè)或者各種組織個人提供生產(chǎn)力、效率的工具,激發(fā)大家的想象力,我的分享到此結(jié)束,謝謝。(本文首發(fā)鈦媒體App,作者/杜志強,編輯/鐘毅)
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論