選擇正確人工智能數(shù)據(jù)存儲的6個注意事項
2019/9/30 9:27:19
企業(yè)如果采用錯誤的存儲人工智能平臺可能會產(chǎn)生嚴(yán)重影響,因此需要了解可能影響產(chǎn)品選擇和策略的6個注意事項。 人工智能和機(jī)器學(xué)習(xí)將成為幫助企業(yè)利用其核心數(shù)字資產(chǎn)創(chuàng)造競爭優(yōu)勢的兩個最重要的工具。但在采用人工智能數(shù)據(jù)存儲之前,企業(yè)必須考慮一系列基于機(jī)器學(xué)習(xí)平臺如何獲取、處理和保留數(shù)據(jù)的需求。 首先,企業(yè)需要檢查機(jī)器學(xué)習(xí)軟件使用的數(shù)據(jù)的生命周期,因為這可以幫助企業(yè)了解為人工智能選擇存儲時應(yīng)考慮的事項。最初,企業(yè)必須獲取數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)或人工智能算法。這些是處理數(shù)據(jù)以學(xué)習(xí)任務(wù)的軟件工具,例如識別對象、處理視頻和跟蹤運動。數(shù)據(jù)可以從多種來源產(chǎn)生,并且通常本質(zhì)上是非結(jié)構(gòu)化的,例如對象和文件。 人工智能的訓(xùn)練過程需要使用數(shù)據(jù)資產(chǎn),并使用機(jī)器學(xué)習(xí)或人工智能軟件創(chuàng)建算法,以處理未來的數(shù)據(jù)源。在訓(xùn)練或開發(fā)算法時,人工智能軟件將處理源數(shù)據(jù),以開發(fā)一個模型,該模型可以創(chuàng)建企業(yè)需要獲得的洞察力或收益。 開發(fā)機(jī)器學(xué)習(xí)算法很少作為一個單一的過程來完成。隨著企業(yè)積累新的數(shù)據(jù),其算法得到了改進(jìn)和完善。這意味著很少的數(shù)據(jù)被丟棄,相反,它會隨著時間的推移而增長并重新處理。 購買人工智能數(shù)據(jù)存儲的標(biāo)準(zhǔn) 在企業(yè)為人工智能平臺選擇存儲之前,必須首先考慮以下注意事項: 1.成本。人工智能數(shù)據(jù)存儲的成本是企業(yè)考慮的關(guān)鍵因素。顯然,企業(yè)管理層和參與采購決策的管理人員都希望其存儲盡可能具有成本效益,并且在許多情況下,這將影響企業(yè)的產(chǎn)品選擇和策略。 2.可擴(kuò)展性。在此需要強(qiáng)調(diào)收集、存儲和處理大量數(shù)據(jù)以創(chuàng)建機(jī)器學(xué)習(xí)或人工智能模型的必要性。機(jī)器學(xué)習(xí)算法要求源數(shù)據(jù)呈指數(shù)增長,以實現(xiàn)精度的線性提高。創(chuàng)建可靠和準(zhǔn)確的機(jī)器學(xué)習(xí)模型可能需要數(shù)百TB甚至PB的數(shù)據(jù),而且這只會隨著時間的推移而增加。 構(gòu)建PB級存儲系統(tǒng)通常意味著使用對象存儲或橫向擴(kuò)展文件系統(tǒng)?,F(xiàn)代對象存儲當(dāng)然可以解決人工智能工作負(fù)載的容量需求,但是它們可能無法滿足其他標(biāo)準(zhǔn),例如高性能。橫向擴(kuò)展文件系統(tǒng)可以提供高性能和良好的可擴(kuò)展性,但是將整個數(shù)據(jù)集存儲在單個平臺上可能會很昂貴。由于可擴(kuò)展性要求和大容量產(chǎn)品的成本,塊存儲通常不是機(jī)器學(xué)習(xí)或人工智能的正確選擇,因為高容量產(chǎn)品的可擴(kuò)展性要求和成本。這里唯一的例外是在公共云中。 存儲成本的變化引入了分層或使用多種存儲類型來存儲數(shù)據(jù)的思想。例如,對象存儲是存儲大量非活動人工智能數(shù)據(jù)的良好目標(biāo)。當(dāng)需要處理數(shù)據(jù)時,可以將其移動到高性能文件存儲集群或為高性能而設(shè)計的對象存儲中的節(jié)點,并且在處理完成后可以將數(shù)據(jù)移回。 3.性能。人工智能數(shù)據(jù)的存儲性能包括三個方面。首先可能也是最重要的是延遲。這定義了軟件發(fā)出的每個I/O請求的處理速度。低延遲很重要,因為改善延遲會直接影響創(chuàng)建機(jī)器學(xué)習(xí)或人工智能模型所需的時間。復(fù)雜的模型開發(fā)可能需要數(shù)周或數(shù)月的時間才能運行。通過縮短此開發(fā)周期,企業(yè)可以更快地創(chuàng)建和完善模型。在檢查延遲功能時,由于對象訪問的數(shù)據(jù)流特性,對象將引用時間存儲到第一個字節(jié),而不是單個I/O請求的延遲。 存儲性能的另一個方面是吞吐量,這是可以將數(shù)據(jù)寫入存儲平臺或從存儲平臺讀取數(shù)據(jù)的速度。系統(tǒng)吞吐量很重要,因為人工智能培訓(xùn)會處理大量數(shù)據(jù)集,通常會反復(fù)讀取和重新讀取相同的數(shù)據(jù)以準(zhǔn)確地開發(fā)模型。機(jī)器學(xué)習(xí)和人工智能數(shù)據(jù)的來源(例如自動駕駛汽車上的傳感器)每天可以產(chǎn)生數(shù)TB的新數(shù)據(jù)。所有這些信息都必須添加到現(xiàn)有數(shù)據(jù)存儲中,并且對任何現(xiàn)有處理的影響最小。 正確設(shè)置存儲平臺至關(guān)重要,因為涉及的數(shù)據(jù)量非常大。 存儲性能的最后一個方面是并行訪問。機(jī)器學(xué)習(xí)和人工智能算法并行處理數(shù)據(jù),運行多個任務(wù),這些任務(wù)可以多次讀取同一數(shù)據(jù),并跨越多個并行任務(wù)。
下一頁
返回列表
返回首頁
©2025 智能硬件世界----智能硬件產(chǎn)業(yè)門戶網(wǎng)站 電腦版
Powered by iwms
孝感市|
金华市|
平陆县|
紫云|
亚东县|
怀远县|
皮山县|
兴仁县|
峨边|
南和县|
桐柏县|
凤庆县|
河津市|
全椒县|
清新县|
宁夏|
乌苏市|
绥中县|
上犹县|
微山县|
湖北省|
灵山县|
贡嘎县|
宜良县|
进贤县|
凤台县|
德安县|
遂昌县|
南涧|
汉阴县|
贵阳市|
得荣县|
昭觉县|
叙永县|
潍坊市|
开化县|
静乐县|
保定市|
图木舒克市|
从化市|
宁明县|