顯示廣告
隱藏 ✕
※ 本文為 dinos 轉寄自 ptt.cc 更新時間: 2016-12-30 11:18:27
看板 Soft_Job
作者 jojochuang (修身.齊家.治國.平天下)
標題 Re: [請益] 值得花十萬到巨匠 學大數據軟體嗎?
時間 Fri Dec 30 08:05:56 2016


看到這串文覺得手癢,想跟各位分享我自己看到的big data.
如果有理解錯誤的地方請糾正。我的背景是distributed systems不是data science.

我自己的感覺big data就是兩個部分:storage跟compute

其實一般企業都有非常大量的資料要處理,但以前big data沒有起飛,
是因為要儲存、處理、分析巨量資料,只有proprietary solution:
proprietary storage像NetApp, EMC之類
proprietary database像IBM, Oracle, Teradata等等
這些solution都很貴,所以放進database裡的資料必須篩選
定期可能還得把舊的、可能不是很重要的data砍掉或放archive

我的觀察啦現在big data能起飛,最主要是Hadoop跟其他處理引擎都是open source
而且不需要特殊的電腦硬體及網路設備
一般企業如果技術比較厲害的就自己玩,要不然跟Hadoop vendor買技術支援
單位儲存成本只是Oracle之類的database 十分之一不到 要擴充也很容易
所以現在data就全部通通丟進cluster裡面 搞不好以後會用到 反正很便宜

就應用來說的話,big data有幾種

(1) analytical database
Hive, Impala, Spark SQL等等 做ETL BI之類的 這個是Hadoop最一開始的應用

(2) operational database
Kafka, HBase, Kudu等等 可以做線上服務

(3) data science & machine learning
Spark MLlib等等 這個現在越來愈多人用

問題就是你想要做什麼樣的應用.

有人說big data是hype,其實真的不是。我每天接觸到的客戶,
他們的cluster 動輒數PB甚至數十PB...

但如果你的data可以用MySQL就裝得下的話...那就當我沒說好了 XDD

※ 引述《v9290026 (CH)》之銘言:
: 開門見山:如果是有志想成為資料科學家或工程師的話,不要花,不值得。
: 連版上可能推的資策會大數據專班.....都不要去(真的要我寧可選Java EE班)。
: 恆逸我沒仔細研究,但應該沒差多少。
: 我是一位對資料處理有興趣的資料工程師,簡單說就是數據領域的黑手,不是帥帥的科學
: 家XD。但如果想一起當黑手的,我來說說有哪些東西可以先去看看有沒有興趣,再往下走:
: (一)資料源:
: Apache  Flume
: Apache Kafka
: LogStash
: 負責接資料的,目前又以streaming為大宗:
: Flume比較適合整合Hadoop生態系; Kafka則是偏SMACK架構; logStash則是ELK自成一派。
: 當然這不是絕對,而且可以互相接來接去,像我前一個案子也有Kafka->Flume->HDFS/HBase/Avro串來串去的。
: 我用這3套目前可以滿足大部分的streaming收資料的需求。
: Flink沒時間碰QQ
: 阿批次勒?...HDFS API XD~
: 選一套的話:我選Kafka。搭配語言:Java Client API
: (二)資料處理引擎:
: MRv2(MapReduce)
: Spark
: 這也是大家,即使是非業界也常常聽到的term,但要講的仔細也是好幾本書的內容了..
: 例如批次處理該用Spark好還是MapReduce。串流處理的話我聽過Spark Streaming,那跟
: Storm又差在哪?什麼是micro-batch?
: 選一套的話,我選Spark,因為目前的應用還是單位時間點內記憶體能負載的量。還沒玩
: 過幾個PB的.....不然選擇可能不同了。
: 但有點尷尬的是,Spark用Java,即便是 Lambda寫起來也是有點憋屈..
: 所以我會推薦新手用Spark+Python+jupiter。
: 想讓自己被Funcational Programming玩的,可以選Spark in Scala(大推)
: 現在在IT鐵人賽有寫一點Spark +Scala的教學,有興趣的可以看看(招手):
: http://ithelp.ithome.com.tw/users/20103839/ironman/1210
個人頁 - iT 邦幫忙::一起幫忙解決難題,拯救 IT 人的一天
[圖]
iT 邦幫忙是 IT 領域的技術問答與分享社群,透過 IT 人互相幫忙,一起解決每天面臨的靠北時刻。一起來當 IT 人的超級英雄吧,拯救下一個卡關的 IT 人 ...

 
: (三)結構化/半結構化查詢工具(Query Engine):
: Hive
: Impala (也開源了)
: Spark SQL
: 這幾套我對Impala跟Spark SQL比較有研究而已。這邊就是SQL語言配的上場的地方啦!!
: 可以用簡單的SQL查詢當然開心啦,但是要注意的是先查哪些語法沒有支援....
: 不管哪一套都要注意"別幫他當作資料庫來用",他們是查詢工具不是資料庫!
: 另外注意所謂的Partition的設計,以及選用的檔案格式,例如Parquet/Avro等....
: 扯遠了....
: 這幾套與BI也都有良好的介接,Tableau/Qlik View不是問題
: 選一套的話,我選SparkSQL/Impala 搭配SQL語言以及各種JDBC/ODBC
: (四)分散式儲存系統:
: HDFS
: Kafka
: S3
: 最正宗的Hadoop肯定會用到HDFS,但也可以把資料暫存在Kafka上,處理完後就送進NoSQL
: ,另外S3也是好物,只是沒機會碰到。
: 選一套的話,還是從HDFS+Java API開始吧
: (五)分散式資料庫:
: HBase
: MongoDB
: ElasticSearch
: Cassandra
: 恩...沒有MySQ, MariaDB, PostgreSQL, MS SQL更沒有Oracle XDDD
: 這幾套我都很愛,只是MongoDB我是接一個小系統上面有跑,沒有實際開發應用經驗。
: 資料庫有時候就端看你要走哪種應用了:
: Hadoop正宗就是搭配HBase,想用SQL上面可以套一個PhoenixDB,設計就是在玩Primary
: Key。
: ElasticSearch:全文檢索斷詞那方面的應用,也就是ELK中的E,再搭配一個kibana整個好用。
: Cassandra::與Spark整合良好,去正規化的Data modeling與P2P的架構整個是我的愛。
: 選一套的話,我私心選Cassadnra + Java/Scala Client~XD
: (六)周邊:
: Zookeeper, Hue, Yarn, Mesos。
: 還有太多周邊了商品了XDDD,Zookeeper可以要懂一些,HBase跟Kafka都有用
: ------------------------------------------------------------------------------------
: OK就先到這裡了,上面的名詞可以Google看看,都是一個框架或工具,看看有沒有興趣。
: 另外考證照有沒有用,我覺是覺得有用啦,但我一張MS還是Oracle的都沒有XD:
: Cloudera Certified Developer for Apache Hadoop (CCDH)
: Cloudera Certified Specialist in Apache HBase (CCSHB)
: Cloudera Certified Administrator for Apache Hadoop (CCAH)
: Certified Developer on Apache Cassandra
: PS: 我是電子系的,天下無難事...
: 小小資料工程師  一鞠躬
: ※ 引述《s00771book (320)》之銘言:
: : 想問問前輩們
: : 目前小妹的工作只是個
: : 用BI cognos 拉資料做數據分析的助理
: : 再用Excel樞紐分析 寫寫函數
: : 做報告給主管看的工作
: : 薪水少之又少 也不算是一技之長
: : 根本不足以與大數據相提並論
: : 目前嚮往大數據工作的方向
: : (也是很有未來的工作 大陸已經很成熟了)
: : 查看了104人力銀行
: : 大數據分析工作需要的條件:
: : MS SQL 資料探勘 R語言 Hedoop
: : 所以我去巨匠諮詢了一下
: : 課程規劃師說要學 MCSA MCSE
: : 再考微軟證照70-461.462.463.464.465
: : 才算是完全學會這套軟體
: : 和證明給面試官看
: : 但是學費竟然快要十萬
: : 想請問有在做這方面工作的朋友們
: : 真的值得花這筆錢嗎?
: : P.S.我只是個國立科大 企管+金融的學士而已
: : 沒有漂亮的學歷 只能學一技之長補足自己
: : 也不是資工 資管的科系的
: : 希望前輩們能給我建議 謝謝你們>////<

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.6.222.140
※ 文章代碼(AID): #1OPQJc6g (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1483056358.A.1AA.html
exthrash: Cloudera...猛1F 12/30 08:13
※ 編輯: jojochuang (24.6.222.140), 12/30/2016 08:18:56
v9290026: 不知道kudu這一年發展的如何了~2F 12/30 08:46
InfinitySA: 推 觀念真的不錯3F 12/30 09:06
InfinitySA: 原po專業的 XD
InfinitySA: 話說(3)我就真的比較不知道 最近很夯的深度學習? XD
longlyeagle: SparkML focus on SVM, there is no Deep Leaning6F 12/30 09:28
longlyeagle: in SparkML
longlyeagle: However, there are a lot of open source projects
beaprayguy: 這才是10pb處理方式-_-....叫人學MySQL SqlServer根9F 12/30 09:36
beaprayguy: 本腦子進水
v9290026: DL可以喝個Caffe11F 12/30 09:45
jojochuang: Intel好像也想做deep learning13F 12/30 10:00
ftrain: 都是一堆騙人的東西而已14F 12/30 10:40

--
※ 看板: dinos 文章推薦值: 0 目前人氣: 0 累積人氣: 738 
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇