那曲檬骨新材料有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)工程師分析工作中用到的數(shù)據(jù)連接配置模型

5RJg_mcuworld ? 2018-01-15 11:21 ? 次閱讀

作為數(shù)據(jù)工程師或者數(shù)據(jù)分析師,經(jīng)常會跟各種數(shù)據(jù)打交道,其中,獲取數(shù)據(jù)這一關(guān)是無法避免的,下面,我就將自己時(shí)常工作中用到的數(shù)據(jù)連接配置模型分享出來,供大家交流。

MySQL數(shù)據(jù)庫

mysql數(shù)據(jù)庫是目前用的最多的數(shù)據(jù)庫之一,此處我做的是讀和寫的接口,而刪除和更新操作,一般不是分析師做的,而是開發(fā),所以我沒有做這個(gè)。

importMySQLdb

import pandas as pd

from sqlalchemy import create_engine

class con_analyze:

"""數(shù)據(jù)分析平臺連接"""

def __init__(self, database='myanalyze'):

self.database = database

self.conn =None

def connect(self):

self.conn =MySQLdb.connect(host='***', user='root', passwd='***', db=self.database, charset='utf8')

def query(self, sql):

try:

self.connect()

data = pd.read_sql(sql,self.conn)

except(AttributeError,MySQLdb.OperationalError):

self.connect()

data = pd.read_sql(sql,self.conn)# 讀取數(shù)據(jù)出現(xiàn)錯(cuò)誤,再次連接

return data

def store(self, mydataframe, table_name, if_exists='replace'):

conn2 ="mysql+mysqldb://root:***@***:3306/%s"%self.database

local_engine = create_engine(conn2)

mydataframe.to_sql(table_name, local_engine, if_exists=if_exists, index=False, chunksize=10000)

'''還可以加一個(gè)函數(shù)用來執(zhí)行單條sql語句,不僅僅是讀取數(shù)據(jù),還可以update,create等'''

作為一個(gè)鏈接類來使用,初始化的時(shí)候給出的conn是None,只有在執(zhí)行查詢函數(shù)的時(shí)候才創(chuàng)建鏈接,(鏈接中,我隱去了自己的host信息,你需要將自己的host填進(jìn)去)

查詢的時(shí)候使用了try語句,如果鏈接不成功或者查詢不成功,就會出錯(cuò),如果是鏈接不成功,那就在異常中再次連接。關(guān)于重復(fù)執(zhí)行一段代碼,有一個(gè)庫大家可以關(guān)注一下:tenacity這個(gè)庫能讓你實(shí)現(xiàn)更優(yōu)雅(pythonic)的代碼重復(fù)此處讀取數(shù)據(jù)是使用pandas庫中的read_sql函數(shù),此函數(shù)可以直接將查詢結(jié)果轉(zhuǎn)化成一個(gè)dataframe,方便了后面的分析工作

存儲功能也是使用dataframe的函數(shù)tosql,此函數(shù)是將一個(gè)df直接轉(zhuǎn)化成sql數(shù)據(jù)存入數(shù)據(jù)庫,如果tablename存在,可以選擇替換(replace)、增加(append)等,如果df很大很長,就需要設(shè)置一下chunksize參數(shù)

chunksize的設(shè)定,程序會自動將你的長達(dá)幾十萬行的df迭代存儲,每次只存儲10000行(這個(gè)數(shù)字是我設(shè)定的,你也可以改)。

看到這里,你可能會有疑問,為什么讀和寫的conn不一樣,一個(gè)是用 MySQLdb.connect創(chuàng)建,而另一個(gè)是用create_engine創(chuàng)建。我想說的是,后面這個(gè)conn2其實(shí)可以作為讀的連接參數(shù),但是使用 MySQLdb.connect創(chuàng)建的連接卻不一定能用來寫,因?yàn)槲以趯?shí)踐中多次運(yùn)行發(fā)生了錯(cuò)誤,所以我就改了。

其實(shí),其他的數(shù)據(jù)庫可以類似這種做法,給自己的項(xiàng)目配置一個(gè)連接類,使用的時(shí)候應(yīng)該是這樣的:

首先,你需要把代碼放在一個(gè)單獨(dú)的配置文件,比如config.py中

然后在你需要使用的地方,導(dǎo)入此配置文件

from config import con_analyze

classAnalyzeData:

def __init__(self):

# 此處初始化,可以帶一個(gè)參數(shù):database,默認(rèn)為myanalyze

self.conn = con_analyze()

# self.conn2 = con_analyze("myanalyze_2")

def get_data(self, sql):

# 執(zhí)行sql查詢結(jié)果保存到df中

df =self.conn.query(sql=sql)

def store_data(self, df):

# 將dataframe類型的數(shù)據(jù)df,存入名為dd_name的數(shù)據(jù)表中

self.conn.store(df,'db_name')

MongoDB

mongodb是一個(gè)非結(jié)構(gòu)化數(shù)據(jù)庫,里面存儲的數(shù)據(jù)類似于json,是鍵值對的形式,如果你遇到了需要查詢mongodb中的數(shù)據(jù),下面我就簡單介紹一下。

數(shù)據(jù)工程師分析工作中用到的數(shù)據(jù)連接配置模型

同樣,也是要建立一個(gè)類,這是為了規(guī)范。

import pymongo

import pandas as pd

classConn_Mongo:

"""mongo 數(shù)據(jù)庫連接"""

def __init__(self):

self.mongo_utoken = pymongo.MongoClient('mongodb://***:27000').utoken # 用戶表

def get_user_data_mongo(self,list_id):

"""

通過連接 mongo查找

"""

user_data = pd.DataFrame(list(self.mongo_fotor.userinfo.find({'FToken':{'$in': list(list_id)}})))

return user_data

這個(gè)畢竟簡單,就是一個(gè)查詢操作,我是先傳入一串id,根據(jù)id找到對應(yīng)的信息。一般來說,mongodb的庫容量都比較大,所以我是有針對的查詢相關(guān)信息。

這里用到了pymongo庫,通過它創(chuàng)建一個(gè)到相應(yīng)地址(我用*隱掉了)的連接,后面的.utoken是對應(yīng)的庫名稱,其實(shí)你也可以把它作為參數(shù),在初始化的時(shí)候傳進(jìn)去。

后面查詢的時(shí)候使用了find函數(shù),其前面的userinfo是表的名稱,find的參數(shù)也是鍵值對的形式,這里我指定了鍵的名稱"FToken",其值{'$in': list(list_id)}代表的意思是:在什么什么中。

將id 做成了一個(gè)list(為了大家理解,取名為list_id),相關(guān)語法大家可以查閱一下。

Flurry

如果你的工作涉及到了app的數(shù)據(jù),那經(jīng)常會使用Flurry獲取數(shù)據(jù)。

Flurry是一個(gè)移動統(tǒng)計(jì)平臺,雖然是國外的,但國內(nèi)依然可以用(不像谷歌分析被禁了),iosAndroid應(yīng)用的運(yùn)營數(shù)據(jù)都可以在上面統(tǒng)計(jì)查詢。

如果你還沒有,又想了解的,可以戳這里:Flurry

數(shù)據(jù)工程師分析工作中用到的數(shù)據(jù)連接配置模型

對,網(wǎng)頁瀏覽的話,界面就是這樣的。

常用的功能是用戶數(shù)據(jù)

數(shù)據(jù)工程師分析工作中用到的數(shù)據(jù)連接配置模型

以及功能點(diǎn)擊事件

數(shù)據(jù)工程師分析工作中用到的數(shù)據(jù)連接配置模型

不過,這不是我要說的重點(diǎn),上面只是讓你看一下Flurry長什么樣,現(xiàn)在我要寫python接口,將這些數(shù)據(jù)取出。

Flurry的api地址,請戳這里:Flurry API

這是創(chuàng)建分析報(bào)告的api,有別于開發(fā)的api

首先,我們需要去申請一個(gè)app token,用于獲取連接權(quán)限,申請方法請參考:app access token

它是大一串字母

數(shù)據(jù)工程師分析工作中用到的數(shù)據(jù)連接配置模型

只要獲取到了這個(gè)token,我們就可以創(chuàng)建一個(gè)url,用于獲取Flurry里面的數(shù)據(jù)了,具體看如下的代碼:

import pandas as pd

import json, requests

classConn_Flurry:

"""flurry api data"""

api_token ="******.****.****"

headers ={'Authorization':'Bearer {}'.format(api_token)}

url ="https://api-metrics.flurry.com/public/v1/data/appEvent/day/app?metrics=activeDevices,newDevices,averageTimePerDevice&dateTime=2017-05-23/2017-05-24"

def get_results(self, url=url):

'''

這里使用的url是一個(gè)示例,也可以使用get_url函數(shù)創(chuàng)建需要的url傳入此函數(shù)作為參數(shù)

'''

data = requests.get(url, headers=self.headers)

cleaned = json.loads(data.text,'utf-8')

cleaned = pd.DataFrame(cleaned['rows'])

return cleaned

def get_url(self, table='appEvent', timegrain='day', dimensions='app/event', metrics='occurrences',

dateTime='2017-09-23/2017-05-24', filters=""):

'''

若filters為空, 不影響結(jié)果

標(biāo)準(zhǔn)的url:endpoint + '/table/timeGrain/dimension1/dimension2;show=all/dimension3{...}?metrics=[comma-separated-metrics]&dateTime=[..]&filters=[...]&topN=[..]&sort=[..]&having=[..]&format=[..]&timeZone=[..]'

App Usage url: endpoint+ "/appUsage/day?metrics=sessions,activeDevices,newDevices&dateTime=2016-06-01/2016-08-01&filters=app|name-in[appname]"

app event url: endpoint + "/appEvent/day/app/appVersion/event?metrics=occurrences&dateTime=2016-07-01/2016-07-03&filters=app|name-in[foo],event|name-in[login,register]"

app event url2: endpoint + "/appEvent/day/app/country?metrics=activeDevices,newDevices&dateTime=2016-07-01/2016-07-03&filters=app|name-in[foo],event|name-in[login]&topN=5&sort=activeDevices|desc"

event parameter: endpoint+ "/eventParams/day/app;show=all/event/paramName/paramValue?metrics=count&dateTime=2016-11-07/2016-11-08&filters=app|name-in[foo],event|name-in[level_complete]"

注意,dimensions的變化,當(dāng)要看某一事件的具體信息時(shí):app;show=all/event/paramName/paramValue,加了個(gè)show=all

注意filters里面filters的格式,可以選擇app名稱和事件名稱

注意timegrain和datetime的關(guān)系,常見的就是day和month,datetime的格式也要跟著變

'''

endpoint ='https://api-metrics.flurry.com/public/v1/data'

url ="{}/{}/{}/{}?metrics={}&dateTime={}&filters={}".format(endpoint, table, timegrain, dimensions, metrics,

dateTime, filters)

return url

代碼稍微有點(diǎn)長,中間許多注釋行,但總的來說就是兩個(gè)步驟:

1. 構(gòu)建url

2. 獲取url對應(yīng)的結(jié)果

但是細(xì)細(xì)說來,這里面涉及到的東西比較多,比如,為什么url的格式是這樣的,還有headers為什么是那樣構(gòu)造的,還有結(jié)果的形式等等

我想說的是,這些在官網(wǎng)api上已有很詳細(xì)的說明,我就不搬磚了,不過,如果你有任何疑問,歡迎在評論區(qū)留言,我知道的一定盡心解答。

url =self.conn_flurry.get_url('appUsage','month','app','averageTimePerSession,activeDevices,newDevices,sessions',self.time_range)

user_mobile =self.conn_flurry.get_results(url)

上面就是一個(gè)簡單的應(yīng)用,其中time_range應(yīng)該是這樣的格式

self.time_range ='2017-09/2017-10'

對于這個(gè)時(shí)間范圍,F(xiàn)lurry默認(rèn)是左閉右開的,即不包含10月

同理,如果是這樣

那就代表從9月23號起,但是不包含10月24號的結(jié)果,這一點(diǎn)尤其要注意。如果你是拿某一段時(shí)間內(nèi)的數(shù)據(jù),就很容易忽略這點(diǎn),導(dǎo)致少拿數(shù)據(jù)

如果是按天拿還好,有date這個(gè)維度,會提醒你到底拿到了哪些天的數(shù)據(jù)。

題圖:pexels,CC0 授權(quán)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:數(shù)據(jù)工程師推薦你用的幾個(gè)工具

文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    工作中用過美信的哪些產(chǎn)品(回帖獎勵(lì)哦)

    大家在平時(shí)的研發(fā)設(shè)計(jì)工作中都用過美信公司的哪些產(chǎn)品,曬一曬!相信好多工程師用過美信的產(chǎn)品,歡迎大家過來曬一曬!
    發(fā)表于 09-22 16:27

    高級算法工程師-獵頭職位

    國內(nèi)某電容芯片公司,業(yè)內(nèi)領(lǐng)先,急聘高級算法工程師數(shù)枚,待遇豐厚:20K/月左右,上班地點(diǎn):深圳。詳細(xì)要求如下: 主要職責(zé):1、數(shù)據(jù)分析、通信及信號處理算法模型設(shè)計(jì)、仿真,并輸出相應(yīng)設(shè)計(jì)、仿真文檔;2
    發(fā)表于 05-23 17:23

    蘋果急聘結(jié)構(gòu)分析工程師

    /9949750134_TIME_1411718076557.jpg][/url]  ***中提到,蘋果想要能對 iPhone 和 iPod 進(jìn)行壓力測試的工程師,更準(zhǔn)確地說是故障分析、金相學(xué)和斷口分析專家,在
    發(fā)表于 09-28 09:53

    菜鳥到大神——硬件工程師進(jìn)階之路

    ,IIC,SPI,UART等等。4、通過每次系統(tǒng)聯(lián)調(diào)的機(jī)會,學(xué)習(xí)了常用儀器的使用。比如示波器,頻譜儀,邏輯分析儀等等。應(yīng)該說,通過半年的工作,讓我從一個(gè)剛畢業(yè)的菜鳥,變成了一個(gè)入門的硬件工程師。這些
    發(fā)表于 05-19 11:24

    【上海】誠聘高級數(shù)據(jù)庫開發(fā)工程師

    獵頭推薦職位:高級數(shù)據(jù)庫開發(fā)工程師工作職責(zé):1. 承擔(dān)項(xiàng)目關(guān)鍵開發(fā)和部署工作;2. 配合其他技術(shù)部門以及測試部門完成項(xiàng)目的交付;3. 參與電商類SAAS平臺
    發(fā)表于 07-06 16:42

    【成都】招聘機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘/信號與信息處理工程師(可實(shí)習(xí))

    招聘崗位機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘工程師/信號與信息處理(實(shí)習(xí)) 崗位職責(zé):1.篩選現(xiàn)場基礎(chǔ)數(shù)據(jù),統(tǒng)計(jì)總體數(shù)據(jù)特性;2.快速學(xué)習(xí)現(xiàn)場數(shù)據(jù)特性,對各類
    發(fā)表于 08-18 10:26

    數(shù)據(jù)分析需要的技能

    數(shù)據(jù)時(shí)代已經(jīng)來臨,對復(fù)雜凌亂的數(shù)據(jù)進(jìn)行整合分析,獲取有用的信息,去支撐政策的制定、決策的形成以及工作的完成,必將成為未來決策重要的手段!從事大數(shù)據(jù)
    發(fā)表于 04-10 15:59

    嵌入式軟件工程師需要掌握哪些專業(yè)技能?

    嵌入式軟件工程師做什么?需要掌握哪些專業(yè)技能?嵌入式軟件工程師在企業(yè)中主要從事嵌入式軟件開發(fā)工作工作中會涉及應(yīng)用層以及底層軟件開發(fā)和設(shè)計(jì)工作
    發(fā)表于 12-24 08:19

    工程師怎么在工作中學(xué)習(xí)

    古人云:“活到老,學(xué)到老。”互聯(lián)網(wǎng)算是最辛苦的行業(yè)之一,“加班”對工程師來說已是“家常便飯”,同時(shí)互聯(lián)網(wǎng)技術(shù)又日新月異,很多工程師都疲于應(yīng)付,叫苦不堪。以至于長期以來流傳一個(gè)很廣的誤解:35歲是程序員工作的終點(diǎn)。
    的頭像 發(fā)表于 09-06 10:24 ?4409次閱讀

    數(shù)據(jù)工程師數(shù)據(jù)分析師的區(qū)別在哪里

    不少朋友都很困惑,大數(shù)據(jù)工程師數(shù)據(jù)分析師有什么區(qū)別,哪一個(gè)的就業(yè)好薪資高?
    的頭像 發(fā)表于 03-12 11:49 ?1.4w次閱讀

    算法工程師是做什么的 有哪些學(xué)習(xí)路線

    第一類是做數(shù)據(jù)模型進(jìn)行推薦、分類、識別、預(yù)測等工作的建模型算法工程師,通常JD上也寫成數(shù)據(jù)挖掘工程師
    的頭像 發(fā)表于 03-26 15:48 ?3.2w次閱讀

    數(shù)據(jù)工程師工作內(nèi)容有哪些

    數(shù)據(jù)工程師工作內(nèi)容取決于你工作數(shù)據(jù)流的哪一個(gè)環(huán)節(jié)。
    的頭像 發(fā)表于 05-07 16:54 ?5251次閱讀

    數(shù)據(jù)工程師的日常工作是什么

    工作崗位上,大數(shù)據(jù)工程師需要基于Hadoop,Spark等構(gòu)建數(shù)據(jù)分析平臺,進(jìn)行設(shè)計(jì)、開發(fā)分布式計(jì)算業(yè)務(wù)。負(fù)責(zé)大數(shù)據(jù)平臺(Hadoop,H
    的頭像 發(fā)表于 05-30 15:52 ?5686次閱讀

    成為一個(gè)優(yōu)秀的數(shù)據(jù)工程師需要什么?

    成為數(shù)據(jù)工程師需要具備哪些技能?數(shù)據(jù)工程工作存在于各個(gè)行業(yè),在銀行業(yè)、醫(yī)療保健業(yè)、大型科技企業(yè)、初創(chuàng)企業(yè)和其他行業(yè)找到
    的頭像 發(fā)表于 04-05 17:25 ?2986次閱讀

    數(shù)據(jù)工程師

    數(shù)據(jù)工程師數(shù)據(jù)工程師可以從事對大量數(shù)據(jù)的采集、清洗、分析、治理、挖掘,并對這些
    發(fā)表于 04-12 13:52 ?635次閱讀
    犹太人百家乐官网的玩法技巧和规则| 大发888为什么打不开| 青阳县| 菠菜百家乐娱乐城| 娱乐城排名| 四方百家乐官网的玩法技巧和规则| 威尼斯人娱乐城游戏平台| 百家乐官网的注码技巧| 大集汇百家乐的玩法技巧和规则| 百家乐官网专打和局| 百家乐五湖四海娱乐网| 百家乐官网怎样概率大| 闲和庄百家乐娱乐网| 娱乐| 新锦江百家乐娱乐| 去澳门百家乐官网娱乐城| 百家乐7人桌布| 百家乐官网赌场游戏平台| 大发888体育场| 百家乐官网套利| 皇家娱乐| 澳门百家乐鸿运| 百家乐官网最稳妥的打法| 威尼斯人娱乐城官方| 百家乐官网对子的玩法| 大发888官网首页| 百家乐官网园蒙特卡罗| 墨江| 送58百家乐的玩法技巧和规则| 青鹏百家乐官网游戏币| 顶级赌场官方网站| 百家乐的关键技巧| 百家乐官网怎么打啊| 天津太阳城橙翠园| 李雷雷百家乐官网的奥妙| 龙博| 百家乐博彩网址| 百家乐官网是怎样算牌| 环球娱乐城| 莫斯科百家乐的玩法技巧和规则| 百家乐官网的规则玩法|