企業(yè)如何實(shí)現(xiàn)對(duì)工業(yè)大數(shù)據(jù)的預(yù)處理?
數(shù)據(jù)分析,包括大數(shù)據(jù)分析,在企業(yè)的業(yè)務(wù)中,特別是在傳統(tǒng)的商務(wù)行業(yè),已有多年的應(yīng)用實(shí)踐,在消費(fèi)者市場(chǎng)的營(yíng)銷(xiāo)中已成了必不可缺的技術(shù)。隨著工業(yè)互聯(lián)網(wǎng)和智能制造的興起和發(fā)展,工業(yè)大數(shù)據(jù)技術(shù)也越來(lái)越受到各方關(guān)注。在“中國(guó)制造2025”的技術(shù)路線(xiàn)圖中,工業(yè)大數(shù)據(jù)是作為重要突破點(diǎn)來(lái)規(guī)劃的,而在未來(lái)的十年,以數(shù)據(jù)為核心構(gòu)建的智能化體系會(huì)成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動(dòng)力。
對(duì)制造企業(yè)而言,不論是新實(shí)施的系統(tǒng)還是老舊系統(tǒng),要實(shí)施大數(shù)據(jù)分析平臺(tái),就需要先弄明白自己到底需要采集哪些數(shù)據(jù)。因?yàn)榭紤]到數(shù)據(jù)的采集難度和成本,大數(shù)據(jù)分析平臺(tái)并不是對(duì)企業(yè)所有的數(shù)據(jù)都進(jìn)行采集,而是相關(guān)的、有直接或者間接聯(lián)系的數(shù)據(jù),企業(yè)要知道哪些數(shù)據(jù)是對(duì)于戰(zhàn)略性的決策或者一些細(xì)節(jié)決策有幫助的,分析出來(lái)的數(shù)據(jù)結(jié)果是有價(jià)值的。
比如企業(yè)只是想了解產(chǎn)線(xiàn)設(shè)備的運(yùn)行狀態(tài),這時(shí)候就只需要對(duì)影響產(chǎn)線(xiàn)設(shè)備性能的關(guān)鍵參數(shù)進(jìn)行采集。
再比如,在產(chǎn)品售后服務(wù)環(huán)節(jié),企業(yè)需要了解產(chǎn)品使用狀態(tài)、購(gòu)買(mǎi)群體等信息,這些數(shù)據(jù)對(duì)支撐新產(chǎn)品的研發(fā)和市場(chǎng)的預(yù)測(cè)都有著非常重要的價(jià)值。
因此,建議企業(yè)在進(jìn)行大數(shù)據(jù)分析規(guī)劃的時(shí)候針對(duì)一個(gè)項(xiàng)目的目標(biāo)進(jìn)行精確的分析,比較容易滿(mǎn)足業(yè)務(wù)的目標(biāo)。明確目標(biāo)以后,就要著手開(kāi)始搜集數(shù)據(jù)并進(jìn)行預(yù)處理了。本期格物匯將跟大家介紹,企業(yè)如何實(shí)現(xiàn)對(duì)工業(yè)大數(shù)據(jù)的預(yù)處理。
數(shù)據(jù)采集
首先我們看看數(shù)據(jù)是如何獲取的,在現(xiàn)實(shí)生活中,我們所面對(duì)的問(wèn)題,往往都是抽象復(fù)雜的。我們來(lái)看如下兩個(gè)例子:
如何提升產(chǎn)品的良率?
可能這是制造業(yè)最為普遍的一個(gè)問(wèn)題,如果我們要分析解決這個(gè)問(wèn)題,常常就會(huì)問(wèn)到:什么產(chǎn)品?有多少條產(chǎn)線(xiàn)在生成?經(jīng)過(guò)了哪些機(jī)臺(tái)?影響產(chǎn)品良率的因素有哪些?我們可能會(huì)提出很多很多這樣的問(wèn)題,解決這些問(wèn)題需要對(duì)相關(guān)業(yè)務(wù)知識(shí)非常了解,盡可能多的找出與問(wèn)題有關(guān)的數(shù)據(jù)。
如何進(jìn)行人臉識(shí)別?
這問(wèn)題更加復(fù)雜一些,雖然我們每個(gè)人的大腦每天都在做人臉識(shí)別,但是大腦如何工作的卻異常難懂。我們可能需要做很多科研工作,去挖掘到底哪些數(shù)據(jù)會(huì)影響到人臉識(shí)別的正確率。如果這些數(shù)據(jù)本身沒(méi)有,很可能還需要進(jìn)行測(cè)量采集,比如兩眼之間的距離,嘴的寬度和長(zhǎng)度等等。當(dāng)然,我們還會(huì)評(píng)估采集的成本,并對(duì)這些數(shù)據(jù)有效性進(jìn)行評(píng)估,驗(yàn)證我們的成本是否值得去花費(fèi)精力測(cè)量。
數(shù)據(jù)預(yù)處理簡(jiǎn)介
數(shù)據(jù)采集以后,數(shù)據(jù)往往存放在數(shù)據(jù)庫(kù)或文件系統(tǒng)中,我們需要把他們導(dǎo)入到算法模型中進(jìn)行訓(xùn)練,得到我們想要的模型。但是我們的數(shù)據(jù)往往雜亂無(wú)章,總的來(lái)說(shuō),數(shù)據(jù)一般存在如下幾類(lèi)問(wèn)題:
數(shù)據(jù)類(lèi)型多種多樣
我們的數(shù)據(jù)中常常出現(xiàn)字符型,時(shí)間型,數(shù)字型等多種數(shù)據(jù)類(lèi)型。其中:字符型是無(wú)法代入模型計(jì)算的,所以我們根據(jù)需要,可以對(duì)字符型數(shù)據(jù)進(jìn)行編碼轉(zhuǎn)換。常用的編碼方法有:
數(shù)字編碼:對(duì)于有大小比較的字符型數(shù)據(jù),可以直接轉(zhuǎn)換成數(shù)字編碼。比如:
Onehot編碼:對(duì)于沒(méi)有大小比較的字符型數(shù)據(jù),可以使用Onehot獨(dú)熱編碼。比如:
時(shí)間類(lèi)型往往是一類(lèi)特殊的數(shù)據(jù),把時(shí)間簡(jiǎn)單看成一個(gè)實(shí)數(shù)的話(huà),往往不符合邏輯。對(duì)于帶時(shí)間的數(shù)據(jù),我們通常使用時(shí)間序列的分析方法進(jìn)行分析。有時(shí)候我們更加關(guān)注的是兩列時(shí)間的差值,這時(shí)我們可以構(gòu)建時(shí)間差值列作為新的變量加入模型之中。
數(shù)字型往往是導(dǎo)入模型進(jìn)行訓(xùn)練的主要部分,數(shù)字型又可以細(xì)分為離散型和連續(xù)型,因?yàn)殡x散與連續(xù)的數(shù)據(jù)分布顯著不同,我們可以對(duì)其進(jìn)行分開(kāi)處理。數(shù)字型之間各個(gè)列常存在量綱差異,有的數(shù)據(jù)可能很大,有的數(shù)據(jù)可能很小,我們需要去除數(shù)據(jù)量綱,防止模型對(duì)數(shù)據(jù)較大的列進(jìn)行偏倚(數(shù)據(jù)值較大時(shí)通常方差也較大)。常用的數(shù)據(jù)去量綱的方法有最大最小值歸一化法,均值標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化法等等。
數(shù)據(jù)格式不對(duì)
我們期望數(shù)據(jù)格式是表結(jié)構(gòu),矩陣格式,或者是張量格式。然而我們拿到的數(shù)據(jù)往往不是格式化的數(shù)據(jù),比如機(jī)臺(tái)的日志數(shù)據(jù),圖像數(shù)據(jù),音頻視頻數(shù)據(jù)。我們需要對(duì)上述數(shù)據(jù)轉(zhuǎn)換,把數(shù)據(jù)格式轉(zhuǎn)換成我們想要的格式。
數(shù)據(jù)中存在異常
數(shù)據(jù)中還會(huì)出現(xiàn)缺失值,異常值等異常,這些情況也會(huì)強(qiáng)烈影響到模型的訓(xùn)練,我們需要對(duì)空值進(jìn)行補(bǔ)值。如何補(bǔ)值需要我們對(duì)數(shù)據(jù)非常了解,才能推斷出該用什么值來(lái)補(bǔ)值,才不會(huì)改變?cè)械臄?shù)據(jù)分布。一般的補(bǔ)值方法有:0值補(bǔ)值,均值補(bǔ)值,中位數(shù)補(bǔ)值,按上一個(gè)數(shù)補(bǔ)值,移動(dòng)平均補(bǔ)值,線(xiàn)性插值,相關(guān)列補(bǔ)值法等等,對(duì)于缺失值比例較大的列,可以采取直接刪除的方法。異常值則需要?jiǎng)?chuàng)建規(guī)則,對(duì)異常值進(jìn)行識(shí)別,再用正常的值進(jìn)行替換,故異常值也有類(lèi)似于缺失值的替換方法。
本文作者:格創(chuàng)東智OT團(tuán)隊(duì)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
- 2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū) | 附獨(dú)家榜單
- EK工業(yè)多聯(lián)加持"國(guó)家級(jí)高新技術(shù)企業(yè)",見(jiàn)證軸承行業(yè)新奇跡
- 全數(shù)會(huì)2024中國(guó)深圳智能制造與機(jī)器人展覽會(huì)|走進(jìn)先臨三維
- 實(shí)地案例:必看,紅外熱成像在LED行業(yè)的應(yīng)用全在這里!
- 速領(lǐng)免費(fèi)門(mén)票!一文揭秘2024全數(shù)會(huì)亮點(diǎn):展商名錄、展商新品、同期會(huì)議、演講嘉賓、采購(gòu)名單
最新活動(dòng)更多
-
即日-11.30免費(fèi)預(yù)約申請(qǐng)>>> 燧石技術(shù)-紅外熱成像系列產(chǎn)品試用活動(dòng)
-
11月8日立即預(yù)約>> 筑夢(mèng)啟光 礪行致遠(yuǎn) | 新天激光數(shù)字化產(chǎn)研基地奠基儀式
-
11月29日立即預(yù)約>> 【上海線(xiàn)下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
11月30日立即試用>> 【有獎(jiǎng)試用】愛(ài)德克IDEC-九大王牌安全產(chǎn)品
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線(xiàn)峰會(huì)
-
限時(shí)免費(fèi)下載立即下載 >>> 2024“機(jī)器人+”行業(yè)應(yīng)用創(chuàng)新發(fā)展藍(lán)皮書(shū)
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市