發(fā)布時間:2024-10-23來源:中國金融新聞網(wǎng)點(diǎn)擊:返回列表
《關(guān)于加快公共數(shù)據(jù)資源開發(fā)利用的意見》(以下簡稱《意見》)出臺,對科技企業(yè)有何影響?一些科技企業(yè)表示,系統(tǒng)性、規(guī)范性地進(jìn)行公共數(shù)據(jù)資源的開發(fā)利用,對科技企業(yè)將是一大利好,而且多元公共數(shù)據(jù)的開發(fā)與利用,有助于大模型的訓(xùn)練和優(yōu)化。
促進(jìn)公共數(shù)據(jù)資源更好運(yùn)用
在科技從業(yè)者看來,一方面,公共數(shù)據(jù)的開放為企業(yè)和創(chuàng)業(yè)者提供了豐富的資源,能夠促進(jìn)數(shù)據(jù)驅(qū)動的創(chuàng)新,催生新產(chǎn)品和服務(wù);另一方面,鼓勵不同機(jī)構(gòu)和企業(yè)之間的數(shù)據(jù)共享與合作,有助于打破信息孤島,實(shí)現(xiàn)資源的有效配置和協(xié)作。
《意見》提出,支持人工智能政務(wù)服務(wù)大模型開發(fā)、訓(xùn)練和應(yīng)用,提高公共服務(wù)和社會治理智能化水平。業(yè)內(nèi)人士認(rèn)為,多元公共數(shù)據(jù)的開發(fā)與利用,有助于大模型的訓(xùn)練和優(yōu)化。
硅心科技大模型算法專家蔣思源在接受《金融時報》記者采訪時表示,科技企業(yè)可以基于公共數(shù)據(jù)開發(fā)各種應(yīng)用和服務(wù),如利用先進(jìn)的大模型技術(shù),對公共數(shù)據(jù)進(jìn)行高效處理和分析,提取有價值的洞察信息,通過創(chuàng)新應(yīng)用提升公共服務(wù)的質(zhì)量和效率。
政務(wù)大模型是加快推進(jìn)政務(wù)工作數(shù)智化轉(zhuǎn)型的有力工具。因涉及經(jīng)濟(jì)社會運(yùn)行的多個領(lǐng)域,政務(wù)大模型的優(yōu)化與訓(xùn)練,往往需要海量、可信且更高質(zhì)量的數(shù)據(jù)資源支持。
據(jù)國家數(shù)據(jù)局?jǐn)?shù)據(jù),截至今年7月份,我國已經(jīng)有243個省級和城市的地方政府上線了數(shù)據(jù)開放平臺,開放的有效數(shù)據(jù)集超過了37萬個,最近8年來增長了44倍。
然而,隨著數(shù)據(jù)技術(shù)的發(fā)展,公共數(shù)據(jù)的開發(fā)利用方式更加多元化,也會產(chǎn)生安全風(fēng)險。數(shù)據(jù)資源開發(fā)和利用程度越深,數(shù)據(jù)安全和個人信息保護(hù)的重要性也隨之增強(qiáng)。
針對公共數(shù)據(jù)安全問題,政府層面已有相應(yīng)部署。國家數(shù)據(jù)局局長劉烈宏在發(fā)布會上表示,國家數(shù)據(jù)局將圍繞公共數(shù)據(jù)資源“供得出、流得動、用得好、保安全”,強(qiáng)化政策保障,加大項目和經(jīng)費(fèi)支持力度,提高技術(shù)能力和安全水平,加快釋放公共數(shù)據(jù)的要素價值。
平衡開放創(chuàng)新與合規(guī)安全
從應(yīng)用端來看,當(dāng)前,一些科技企業(yè)會將其研發(fā)訓(xùn)練的大模型進(jìn)行開源,而另外一些通用或垂直大模型也會使用這些開源數(shù)據(jù)進(jìn)行訓(xùn)練,因此,開源的模型數(shù)據(jù)就是一類公共數(shù)據(jù)。對科技企業(yè)而言,這類公共數(shù)據(jù)的開發(fā)與利用是否存在難點(diǎn)?
“公共數(shù)據(jù)的采集和更新頻率不高,導(dǎo)致數(shù)據(jù)過時或不準(zhǔn)確,影響后續(xù)分析和決策,無法滿足動態(tài)化業(yè)務(wù)需求。此外,公共數(shù)據(jù)絕大部分是結(jié)構(gòu)化數(shù)據(jù),采集與處理過程會損失很多關(guān)鍵信息。”蔣思源直言,以公共開源代碼數(shù)據(jù)為例,當(dāng)前的公共開源代碼數(shù)據(jù)會存在大量有語法、編譯、邏輯錯誤低質(zhì)量數(shù)據(jù),這會大大限制訓(xùn)練出來的代碼大模型。
另外,“在利用公共數(shù)據(jù)時,需確保個人隱私得到保護(hù),防止數(shù)據(jù)泄露和濫用,尤其是涉及敏感信息或者代碼時,需要采用命名實(shí)體識別等敏感信息去除技術(shù)和管理措施,保障數(shù)據(jù)的安全性和用戶隱私。”蔣思源表示。
如何兼顧開放創(chuàng)新與合規(guī)安全?
首先,要建立健全的數(shù)據(jù)管理制度,對數(shù)據(jù)采集、存儲、共享和使用進(jìn)行全生命周期管理,確保數(shù)據(jù)質(zhì)量。對此,《意見》提出,強(qiáng)化數(shù)據(jù)安全和個人信息保護(hù),加強(qiáng)對數(shù)據(jù)資源生產(chǎn)、加工使用、產(chǎn)品經(jīng)營等開發(fā)利用全過程的監(jiān)督和管理。
其次,建立易于使用的數(shù)據(jù)共享平臺,提供數(shù)據(jù)訪問和分析工具,降低使用門檻。
“《意見》進(jìn)一步提出了要推動實(shí)現(xiàn)‘一數(shù)一源’‘主動共享與按需共享相結(jié)合、完善共享責(zé)任清單’等一系列工作要求,后續(xù)政務(wù)數(shù)據(jù)共享工作力度將會進(jìn)一步加大,以更好的服務(wù)支撐數(shù)字政府建設(shè)。”國家數(shù)據(jù)局副局長陳榮輝表示。
在保證數(shù)據(jù)隱私與安全的前提下,通過優(yōu)化算法與架構(gòu)設(shè)計,有助于提高大模型在處理公共數(shù)據(jù)時的效率與準(zhǔn)確性,促進(jìn)大模型在各行業(yè)的廣泛應(yīng)用與創(chuàng)新。
那么,科技企業(yè)該如何更安全、高效地應(yīng)用公共數(shù)據(jù)?
蔣思源認(rèn)為,可以從以下方面著手,一方面,選擇可靠的公共數(shù)據(jù)源,確保數(shù)據(jù)的準(zhǔn)確性和完整性,以提高模型的訓(xùn)練效果;利用眾多數(shù)據(jù)預(yù)處理技術(shù)盡可能提升數(shù)據(jù)質(zhì)量。另一方面,科技企業(yè)在大模型的公共數(shù)據(jù)使用上還要更加注重安全性與風(fēng)險管理。“以我們關(guān)注的代碼數(shù)據(jù)來說,可以利用傳統(tǒng)軟件工程的語法分析、靜態(tài)分析、運(yùn)行時分析等技術(shù)逐一檢測代碼項目的質(zhì)量,并治理出一批高質(zhì)量的公共開源代碼。”蔣思源說。
陳榮輝強(qiáng)調(diào),對于公共數(shù)據(jù)資源,開發(fā)開放是導(dǎo)向,安全依規(guī)是前提。對那些潛在價值高,具有一定敏感性的數(shù)據(jù),無法直接向社會開放,需要依托更加專業(yè)的力量,付出一定的治理和開發(fā)成本,形成數(shù)據(jù)產(chǎn)品和服務(wù)供社會各方調(diào)用。
基于這一原則,蔣思源建議,大模型企業(yè)需要定期進(jìn)行安全審計,評估大模型數(shù)據(jù)使用及存儲的安全性,及時發(fā)現(xiàn)和修復(fù)潛在的安全漏洞;實(shí)施嚴(yán)格的數(shù)據(jù)訪問權(quán)限管理,確保大模型只能看到或者訓(xùn)練到合法合規(guī)的數(shù)據(jù)。
針對當(dāng)前存在的一些開源數(shù)據(jù)使用程序不夠明確、運(yùn)營情況不夠透明等問題,科技企業(yè)還應(yīng)加強(qiáng)自我約束,在開發(fā)大模型時,注重模型的可解釋性,確保用戶能夠理解模型的決策過程,從而增強(qiáng)信任感;此外,明確告知用戶數(shù)據(jù)的使用目的和方式,提升透明度。
【關(guān)閉】