那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據分析過程中幾個可能常見的陷阱

數據分析與開發 ? 來源:木木自由 ? 作者:木兮月寶 ? 2021-09-23 16:26 ? 次閱讀

前言 很多的數據分析人員往往太過于去關注數據或者分析方法論等,尤其是對于剛入門的,在解讀數據過程中,受到數據來源、采集方法、統計口徑、分析方法、業務經驗、思考方式等因素影響,就會出現一些容易忽視的“陷阱”,以致于得出的結果很可能出現偏差。所以,重視數據分析是好的,但也千萬不能掉進數據分析的“陷阱”里。

那么,本文我們將從業務層面的視角,來探討和梳理在數據分析過程中幾個可能常見“陷阱”,目的是主要給剛入門的、產品、運營等提供一些有益經驗分享,幫助大家在實際工作場景中遇到這些情況的時候,可以盡量規避一些不太注意的“陷阱”。

1

不了解數據來源,不確保數據的正確性

在數據分析中更注重的是分析,而并不是數據本身,這就造成了數據分析最大的陷阱:不了解數據來源,不確保數據的正確性,就開始分析了。因此,數據分析的第一步就是了解數據來源,確保數據準確性。 比如,一個考勤軟件的App在做渠道投放,上線了新版的落地頁。

上線了一段時間數據穩定后,業務人員從數據發現,此某個渠道的落地頁點擊率、轉化率等數據相比其他渠道的投放的效果高出很多,從數據中,可以看到說明這個渠道來的用戶效果很好,以后就要加大這個渠道的投放。然而,突然接到技術人員的反饋,在數據埋點的時候不小心埋錯了,導致統計數據出現問題,這個渠道的數據是其他兩個渠道總和! 因為錯誤的數據,得出了錯誤的分析結果,并且還做了后續錯誤決策。由此可見,有效數據分析的前提,是對正確的數據做分析。尤其是在小公司的人員,沒有強大的數據團隊,可能就會借用各種各種第三方的統計軟件來做數據埋點,此時首要確認數據的正確性,去梳理數據來源。

2

需求不匹配,分析目的不明確

梳理了數據來源,確保數據的準確性,是前提。那么接下來就是需要明確分析目的,分析目的明確了,后面的各種統計數據和分析方法以及分析結果才有意義。當明確目的后,才有后續的分析思路。 比如,一個考勤軟件的App的業務人員提出轉化率較低,是否有優化的空間的需求。

然而我們并沒有進一步的確認是哪個環節轉化率低,就開始直接拉取數據進行分析,其實業務人員說的是新用戶會員成單的轉化率,是不是來源不精準,能否優化渠道或者停止投放,而我們得到的需求不明確,溝通的時候也未能進一步的明確分析目的,就是直接拉取各個環節的轉化率,導致拉取的數據與原始問題不匹配。

因此,根據業務方的需求,首先要明確為什么要做數據分析,要解決什么問題,也就是分析的目的。然后針對分析目的,搭建分析框架,選擇分析方法和具體分析指標,以及明確抽取哪些數據,用到哪些圖表等分析思路,只有對分析目的有清晰的認識,才會避開為分析而分析的誤區,分析的結果和過程就越有價值。

3

未清理數據,數據采集出現偏差

在了解數據來源、確保了準確性、明確分析需求后,下一步就是數據采集和數據清洗了,這也是最容易出問題的環節,有些問題甚至非常隱蔽難以發現。因此,數據本身沒有觀點,分析時不能預設觀點,只傾向于那些能夠支持自己的觀點的數據,并在數據清洗中,合理的識別數據容量大小、剔除臟數據。

注意選擇性偏見或者幸存者偏見。總體樣本中,任意一個群體樣本的平均值,都會圍繞在這個群體的整體平均值周圍。基于這個原理,我們便可以采用隨機抽樣的方式來對整體樣本中的一個小群體進行分析,得出的結論是會比較接近真實情況的。但是你采集數據的過程是否是真的隨機。

比如,在一個考勤軟件APP應用升級期間,通過衡量用戶的日活、留存率、活躍企業數等指標,來判斷用戶對新版本的喜歡是否優于老版本。但這里實際就隱藏了選擇性偏見,因為新版本發布時,第一批升級上來的用戶往往就是最活躍的用戶。

這批用戶在這些指標上,本來表現就是優于一般用戶的,因此指標數據更高并不能說明更好。 注意數據樣本容量不夠。我們在分析某特定的用戶行為數據時,可能用戶使用很少的情況。或者是在提取數據的過程中,增加了很多的限制條件或者多種用戶行為或屬性進行交叉后,得到很少的用戶樣本。

此時,得出的分析結果未必可信。因為大數定律,只有當數據量達到一定程度后,才能反映出特定的規律。但是樣本容量多少才算合理,通常只能是具體問題具體分析。 比如,在一個考勤軟件APP應用新上了學習打卡的新功能,但由于前期無預算做推廣,導致新功能只有在小部分老用戶群體中曝光,因此,從數據中來判斷此功能并不受歡迎。

但這里實際就存在數據樣本容量不夠,并不能說明問題。因此,遇到這種情況,建議可以把時間線拉長,這樣可能會獲得足量的樣本。還有一種做法是,將不重要的限定條件去掉,也可以增大樣本數。注意存在臟數據。臟數據是指嚴重不合理或對于實際業務毫無意義的數據,通常是由程序bug、第三方攻擊、人為等原因造成的。這種數據對指標的準確度影響較大。

比如,我們要分析在一個考勤軟件APP中各個企業類型打卡規則的分布情況,而用于分析用戶打卡視角中,有較多是個人打卡并不是我們要分析的目標群體或者有人的工種的特殊性,就會造成打卡規則的分布不規則的情況,容易造成對用戶喜好的誤判。因此,對臟數據的清洗和處理,也是數據分析人員日常工作中非常重要的一部分。在分析具體業務時,也要針對特定業務,過濾掉異常數據,來確保擁有比較好的數據質量。

4

指標不合理,數據具備時效性

清洗完數據后,下一步就需要明確分析的數據指標,進行數據分析,其數據分析的結果通常是各種各樣的指標,每個指標都有自己的統計邏輯,反映的事物的某些方面的本質。 比如,很多時候我們會使用平均值來描述一組數據的集中趨勢。

我們在制定業務閾值時,也經常會參考平均值。但是,有些業務場景不適合使用平均值。就像變化比較大,存在極端值的數據,或者是對最終結果影響不一致的數據。這種時候,你就要考慮其他指標,如加權平均值、百分位數、小數值合并后再求平均值。 因此,在進行數據分析時,如果不能選擇正確的指標,也可能會走入誤區,從而得出錯誤的結論。數據是具備一定的時效性,不同情況下的數據,一些曾經的數據可能不再適用,需要找到新的數據指標。

5

套用方法論,分析結論不嚴謹

明確好數據分析指標,接下來就是通過各種數據分析方法來分析數據,得出結論,支持業務決策。數據分析方法論是對一個數據分析項目的整體工作起到指導作用的思路模型。然而,在數據分析學習時或許習慣了各種解題套路,但實操時其實并不存在通用的分析套路。

不同的行業、不同的業務,不同的階段,哪怕用的是同一種分析方法結論都應有所區別。 比如,在實際工作場景中,數據分析需要對數據表現作出快速判斷,進而指導運營決策,并不像學術研究那樣嚴謹,不需要在每次分析前都去驗證樣本群體是否符合某種統計分布等,實際工作中,考驗得更多的是對業務的理解的把握能力。

所以,在開展數據分析工作過程中,不能完全依賴過往的類似案例以及分析方法,而應重視業務的理解。 因此,每一次分析,應該結合業務場景中思考,更不能被各種套路方法論給束縛住,也不能簡單依賴過往的類似案例。

6

輕視業務,與實際場景脫節

數據不等同與實際場景,實際場景往往比數據更加復雜,分析時需要了解具象化的場景,而不是抽象的數據,數據分析初學者極易犯的錯誤,只懂工具不懂業務不能真正理解業務需求。好的分析人員需要既懂工具又懂業務,也要多去一線了解業務運作,幫助解決業務運營中遇到的各種問題。

比如,結構化思維模型、KANO分析模型、RFM模型、四象限模型。。。。。。這些經典且廣泛應用的模型。來積累豐富的數據分析模型庫以應對各種業務場景。 因此,數據分析人員結合實際業務場景,需要具體問題具體分析,服務于業務的應用。及時與企業各部門溝通,共享數據分析的成果,這樣才能體現數據分析的真正價值。所以作為數據分析人員,要結合業務需求,保持獨立思考的心態,大膽假設,小心求證,警惕和避免走進數據分析的陷阱。

總結

實際工作生活中,還有很多需要我們注意的關于數據分析的事項,這里就不一一開展,本文只是從業務層面的視角梳理了關于數據分析各個環節中可能存在的引發誤導的一些陷阱。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • APP
    APP
    +關注

    關注

    33

    文章

    1577

    瀏覽量

    72782
  • 數據分析
    +關注

    關注

    2

    文章

    1461

    瀏覽量

    34166
  • Kano模型分析法

    關注

    0

    文章

    2

    瀏覽量

    1386

原文標題:警惕!數據分析的陷阱?

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    智能焊接數據分析設備提升工業效率與精度

    如何通過數據采集、分析與應用,實現對焊接過程的精確控制,從而提升工業生產的整體水平。 首先,智能焊接數據分析設備的核心在于其強大的數據
    的頭像 發表于 01-15 14:11 ?106次閱讀

    智能焊接數據分析設備提升制造精度與效率

    隨著工業4.0的推進,智能制造成為制造業轉型升級的重要方向。在這一過程中,焊接技術作為機械制造的關鍵環節,其精度和效率直接影響到產品的質量與生產成本。傳統的焊接方式依賴于人工操作,存在焊接質量
    的頭像 發表于 01-14 09:36 ?85次閱讀

    Mathematica 在數據分析的應用

    數據分析是現代科學研究和商業決策不可或缺的一部分。隨著數據量的爆炸性增長,對數據分析工具的需求也在不斷增加。Mathematica,作為一種強大的計算軟件,以其獨特的符號計算能力和廣
    的頭像 發表于 12-26 15:41 ?209次閱讀

    數據可視化與數據分析的關系

    的含義。 數據分析的定義與作用 數據分析是一種使用統計和邏輯方法來分析數據集的過程,目的是發現模式、趨勢和關聯性。它包括
    的頭像 發表于 12-06 17:09 ?427次閱讀

    LLM在數據分析的作用

    隨著大數據時代的到來,數據分析已經成為企業和組織決策的關鍵工具。數據科學家和分析師需要從海量數據中提取有價值的信息,以支持業務決策。在這個
    的頭像 發表于 11-19 15:35 ?426次閱讀

    raid 在大數據分析的應用

    RAID(Redundant Array of Independent Disks,獨立磁盤冗余陣列)在大數據分析的應用主要體現在提高存儲系統的性能、可靠性和容量上。以下是RAID在大數據分析
    的頭像 發表于 11-12 09:44 ?314次閱讀

    SUMIF函數在數據分析的應用

    在商業和科學研究數據分析是一項基本且關鍵的技能。Excel作為最常用的數據分析工具之一,提供了多種函數來幫助用戶處理和分析數據。SUMI
    的頭像 發表于 11-11 09:14 ?416次閱讀

    智能制造數據分析應用

    隨著工業4.0的推進,智能制造已經成為制造業轉型升級的關鍵。數據分析作為智能制造的核心驅動力,正逐步改變傳統的生產方式,為企業帶來更高的效率和更大的競爭力。 一、數據分析在智能制造的重要性 提高
    的頭像 發表于 11-07 09:56 ?378次閱讀

    數據分析在數字化的作用

    與重要性 數據分析是指使用統計和邏輯方法對數據進行處理和解釋的過程。它涉及到數據的收集、清洗、轉換、建模和解釋,目的是發現數據
    的頭像 發表于 10-27 17:35 ?710次閱讀

    云計算在大數據分析的應用

    云計算在大數據分析的應用廣泛且深入,它為用戶提供了存儲、計算、分析和預測的強大能力。以下是對云計算在大數據分析應用的介紹: 一、存儲和處
    的頭像 發表于 10-24 09:18 ?602次閱讀

    數據分析的工具有哪些

    數據分析是一個涉及收集、處理、分析和解釋數據以得出有意義見解的過程。在這個過程中,使用正確的工具至關重要。以下是一些主要的
    的頭像 發表于 07-05 14:54 ?1056次閱讀

    數據分析有哪些分析方法

    數據分析是一種重要的技能,它可以幫助我們從大量的數據中提取有價值的信息,從而做出更明智的決策。在這篇文章,我們將介紹數據分析的各種方法,包括描述性
    的頭像 發表于 07-05 14:51 ?750次閱讀

    機器學習在數據分析的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數據中學習規律,為企業和組織提供了更高效、更準確的
    的頭像 發表于 07-02 11:22 ?811次閱讀

    求助,關于AD采集到的數據分析問題

    MATLAB畫圖后能看到幾個周期的圖像 數據特征:在matlab能看到圖像是由兩部分構成,一部分是基波及其n次諧波,即存在上升沿,過沖,另一部分是隨機噪聲 求各位大神科普
    發表于 05-09 07:40

    廣告投放公司運用大數據分析,實現精準投放

    。廣告投放公司將探討廣告投放公司如何運用大數據分析實現精準投放,以及這一過程中的關鍵要素和挑戰。 一、大數據在廣告投放的作用 大數據在廣告
    的頭像 發表于 04-11 11:23 ?1065次閱讀
    澳门博彩网站| 百家乐专打单跳投注法| 皇家棋牌| 博彩百家乐官网心得| 威尼斯人娱乐网址| 百家乐官网双人操作分析仪| 大发888洗码| 淘金百家乐现金网| 电玩百家乐游戏机路单| 利都百家乐官网国际娱乐平台| 百家乐玩法注意事项| 百家乐官网赢钱心得| 大发888九州娱乐城| 百家乐斗视频游戏| 百家乐官网烫金筹码| 信誉棋牌评测网| 澳门百家乐娱乐城注册| 澳门百家乐官网介绍| 德州扑克几副牌| 太阳城百家乐娱乐官方网| 沙龙百家乐官网娱乐场| 中卫市| LV百家乐娱乐城| 杨公24山属性| 玩百家乐官网凤凰娱乐城 | 属鸡与属羊做生意| 网络百家乐官网模拟投注| 大发在线体育| 世嘉百家乐的玩法技巧和规则| 百家乐官网游戏新| 网络百家乐官网可信吗| 德州扑克发牌顺序| 百家乐无损打法| 百家乐官网博弈之赢者理论| 网络百家乐官网可信吗| 百家乐翻天超清| 百家乐有真假宝单吗| 郑州百家乐官网高手| 清水河县| 威尼斯人娱乐场 新世纪| 百家乐平台注册送现金|