賽迪智庫:人工智能發展應高度重視大數據支撐作用
2016年以來,全球迎來人工智能發展新一輪浪潮,人工智能成為各方關注的焦點。從軟件時代到互聯網,再到如今的大數據時代,數據的量和復雜性都經歷了從量到質的改變,可以說大數據引領人工智能發展進入重要戰略窗口。
從發展意義來看,人工智能的核心在于數據支持。首先,大數據技術的發展打造堅實的素材基礎。大數據具有體量大、多樣性、價值密度低、速度快等特點。大數據技術能夠通過數據采集、預處理、存儲及管理、分析及挖掘等方式,從各種各樣類型的海量數據中,快速獲得有價值信息,為深度學習等人工智能算法提供堅實的素材基礎。人工智能的發展也需要學習大量的知識和經驗,而這些知識和經驗就是數據,人工智能需要有大數據支撐,反過來人工智能技術也同樣促進了大數據技術的進步,兩者相輔相成,任何一方技術的突破都會促進另外一方的發展。
其次,人工智能創新應用的發展更離不開公共數據的開放和共享。從國際上看,開發、開放和共享政府數據已經成為普遍潮流,英美等發達國家已經在公共數據驅動人工智能方面取得一定成效。而我國當前仍缺乏國家層面的整體戰略設計與部署,政府數據開放仍處于起步階段。在開放政府數據成為全球政府共識的背景下,我國應順應歷史發展潮流,抓住大數據背景下發展人工智能這一珍貴歷史機遇,加快數據開發、開放和共享步伐,提升國家經濟與社會競爭力。
從發展現狀來看,人工智能技術取得突飛猛進的進展得益于良好的大數據基礎。首先,海量數據為訓練人工智能提供了原材料。據We Are Social公司統計,全球獨立移動設備用戶滲透率超過了總人口的65%,活躍互聯網用戶突破了40億人,接入互聯網的活躍移動設備超過了50億臺。根據IDC預測,2020年,全球將總共擁有35ZB的數據量。如此海量的數據給機器學習帶來了充足的訓練素材,打造了堅實的數據基礎。移動互聯網和物聯網的爆發式發展為人工智能的發展提供了大量學習樣本和數據支撐。
其次,互聯網企業依托大數據成為人工智能的排頭兵。Facebook近五年里積累了超過12億全球用戶;IBM服務的很多客戶擁有PB級的數據;Google的20億行代碼都存放在代碼資源庫中,提供給全部2.5萬名Google工程師調用;亞馬遜AWS為全球190個國家/地區超過百萬家企業、政府以及創業公司和組織提供支持。在中國,百度、阿里巴巴、騰訊分別通過搜索、產業鏈、用戶掌握著數據流量入口,體系和工具日趨成熟。
再者,公共服務數據成為各國政府關注的焦點。美國聯邦政府已在Data.gov數據平臺開放多個領域13萬個數據集的數據。這些領域包括農業、商業、氣候、教育、能源、金融、衛生、科研等多個主題。英國、加拿大、新西蘭等國都建立了政府數據開放平臺。在我國,2011年香港特區政府上線data.gov.hk,上海率先在內地推出首個數據開放平臺。之后,北京、武漢、無錫、佛山、南京等城市也都陸續上線數據平臺。
另外,基于產業數據協同的人工智能應用層出不窮。海爾借助擁有上億用戶數據的SCRM大數據平臺,建立了需求預測和用戶活躍度等數據模型,年轉化的銷售額達到60億元;益海鑫星、有理數科技和阿里云數加平臺合作,以中國海洋局的遙感衛星數據和全球船舶定位畫像數據為基礎,打造圍繞海洋的數據服務平臺,服務于漁業、遠洋貿易、交通運輸、金融保險、石油天然氣、濱海旅游、環境保護等眾多行業,從智能指導遠洋捕撈到智能預測船舶在港時間,場景豐富。
綜上所述,大數據為人工智能的發展提供了必要條件。現階段,在大數據角度,制約我國人工智能發展的關鍵在于缺乏高質量大數據應用基礎設施、公共數據開放共享程度不夠、社會參與數據增值開發進展緩慢、標準缺乏時效性等。
因此,需要從以下幾個方面重點考慮:
一是重點突破面向大數據應用基礎設施。結合數據生命周期管理需求,培育大數據采集與集成、大數據分析與挖掘、大數據交互感知、基于語義理解的數據資源管理等平臺產品。面向重點行業應用需求,形成垂直領域的大數據解決方案及服務。
二是積極開展公共數據開發共享。國家要制定數據開放共享重大方針政策,加強統籌協調和分類指導。各地方要積極探索數據開放共享管理的新模式。鼓勵有條件的地方探索建立數據開放共享管理部門,加強數據開放共享全過程的管理。
三是鼓勵社會力量參與數據再利用增值開發。建立數據社會化增值開放共享績效評價制度,將數據社會化增值開放共享績效評價列入電子政務效益評估的總體框架之中。設計可度量的指標,評估數據社會化增值開放共享的數量、質量、收費的合理性以及申請者的滿意度。
四是增強標準時效性。通過國家標準規定,要適應于移動應用的時代需求,提供相應的API,并規定API的基本格式,這樣既能方便數據提供方進行API的開發,也大大降低了第三方軟件開發者的開發復雜度,提高代碼的重用率從而降低開發成本。