顯示廣告
隱藏 ✕
※ 本文為 applejone.bbs. 轉寄自 ptt.cc 更新時間: 2013-08-12 14:35:30
看板 PC_Shopping
作者 s6414073 ()
標題 Re: [開箱] 打造高階工作站(4)-Xeon E5-2650 x2
時間 Mon Aug 12 01:48:18 2013


我也是做理論計算的Group

主要都是跑DFT

如果有接觸的人 應該都知道他的計算量非常龐大

底下開了個話題 那我也一起加入討論好了XD

順便供後人參考

最近老闆也是買了5台這樣的機器

我是負責將這些電腦叢集串起來

我的規格跟h大幾乎相同

機器規格:
CPU      Intel Xeon Processor E5-2650 * 2
MB       SuperMicro X9DRi-LN4F+ * 1
RAM      SuperMicro 16GB DDR3-1600 2Rx4 ECC REG * 8
HD       WD 500G 64MB RE4 5003ABYX * 1
HD       WD 2TBMB RE4 2003FYYS * 1
CHASSIS  SuperMicro  825TQ-563LPB *1
OS用 SuSE Linux Enterprise Server 11 SP2
使用OpenMPI-1.6.5 MPI Library
使用Intel Fortran Composer XE 2013 for Linux (2013.5.192)
有使用Composer XE 2013內的 Intel Math Kernel Library
主要是BLAS LAPACK FFT
我有關掉HT 因為對於計算來說HT沒任何幫助 反而還會變慢
預留記憶體插槽之後要擴充用
之前job太大 使用的記憶體超過御風者fat node的上限(256GB) 就死掉了
用2個node才解決此問題...

NFS的主要規格:
Adaptec 6805 8-port PCIe SAS 2.0 RAID Kit
Seagate ST3300657SS SAS 15000RPM, 300GB (HD & Kit) * 8 做RAID0
為何不用SSD?
因為當file system多人讀寫 SSD的緩衝一定不夠撐
SCSI硬碟支援多人讀寫 因此多人多工的環境加上SSD壽命問題 完全不用考慮SSD


主要的軟體是VASP5.2和Gaussian09 這些軟體都是用Fortran寫的

Makefile 編譯參數 OFLAG 御風者用-O2 -ip 效能最好
                        Xeon用  -O3 -ip -axAVX 效能最好

AMD機器 用他們的編譯器 效能沒比較好 連GotoBLAS效能也比MKL差
結果AMD機器用intel的編譯器和MKL效能最好...

我們也是御風者的用戶 御風者的是使用AMD的CPU

浮點運算效能頗弱(以DFT計算來說)


御風者是強在使用InfiniBand的網路架構

所以還是要看程式怎麼寫 程式寫得不好 平行效率就非常差

這裡的平行主要是MPI架構 不討論SMP架構

所以Code還是很重要 因此影響到體系

以VASP來說 單純算結構Opt的話 御風者單機24core效率最佳
或是一台12core 走InfiniBand跨2個node 效率也不錯
如果使用超過12core 只會變慢 不會變快
用越多core 會越慢

如果VASP是做找過渡狀態 使用NEB方法 平行效率非常好
core越多 計算越快 御風者96core(2個node)是極限了 效率這裡最好
Xoen的話5個node(共80core)效率最好 我們也只有五台這樣的機器 所以沒辦法測下去

所以還是看你的體系決定用什麼電腦

以結構Opt來說 同一個job(學長從以前測到現在 所以就以他的標準)
Xoen E5-2650 *2 共16core 只需要8分鐘
御風者 24core            需要32分鐘
以上是單機跑

跨node 我以NEB計算為基準的job
Xeon E5-2650 *2 用5個node 80core 只要7小時
御風者          用2個node 共96core 將近7小時(不到7小時)
可能原因是1Gbps和InfiniBand的速度比起來根本是天壤之別...
所以這個比較 沒啥意義...


新的CPU強是強在新的AVX指令集
Xoen的Cache也比較大
跟廠商借了ivy的i7的頂級款 用AVX2 還是一樣被sandy的Xeon E5 打假的....
所以時脈似乎不是重點
也難怪Xeon的CPU特別貴(廢話XD)

所以還是看你要算什麼體系而定...

Gaussian09的話 是使用OpenMP架構 所以單機跑效能比較好
Linda那個跨node的library效能超差的 所以就不裝了
不過i7就夠用了

如果用新的CPU 程式沒有重新編譯過 效能是一定跑不出來的

還有我不是資訊相關科系的人 如果我專業術語有錯誤 煩請糾正...

附上機房機器的兩張圖:http://ppt.cc/R9YV
                     http://ppt.cc/pAYW

獻醜了...

--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.136.177.243
ckgegg      :快推 雖然我真的看不懂1F 08/12 01:51
FTICR       :專業!!2F 08/12 02:12
georgei0    :同理論計算淚推3F 08/12 02:18
NeedGem     :想到這個... 因為自己工作上遭遇挫折, 所以只能...4F 08/12 07:03
NeedGem     :眼睜睜看別人已經在玩多機器了,多機一定要碰上 MPI.
NeedGem     :至於 openmp 只能單機使用... (默)
cerberus4523:以前弄伺服器曾經很想買個機櫃回家用,現在回頭想想7F 08/12 07:50
cerberus4523:我這種想法真是太智障了
abc0922001  :推~9F 08/12 10:06
stupidfox   :化學  或生化嗎?  御風者不是在新竹的國家高速網路與10F 08/12 10:23
stupidfox   :計算中心   所以原po是交大的囉XD?
stupidfox   :BTW  你們有試過更換I/O嗎,同樣的預算下跑SSD raid0
stupidfox   :或丟ramdisk   時間/JOB的提升效果很明顯喔!
stupidfox   :另外請問 御風者7小時 是算什麼樣的JOB呢@@?
s6414073    :SSD不適合多人多工 buffer不夠大15F 08/12 10:31
s6414073    :同時間 有人讀 有人寫 I/O一下就塞爆了
s6414073    :七小時就用NEB Method 找TS的JOB
stupidfox   :Soga  了解:D18F 08/12 10:34
s6414073    :御風者在新竹科學園區沒錯 但遠端過去就可以送JOB了19F 08/12 10:34
stupidfox   :我們實驗室人少  一個人大約可以分到一台工作站一 一20F 08/12 10:34
stupidfox   :不過工作站大概就原po那台的一半而已orz...虛弱
touyalin    :只能說實驗室有那麼多預算真好.. 我們lab買不起..22F 08/12 10:35
soem        :By the way, 在這種應用下DFS會不會比NFS適合呢?23F 08/12 10:36
s6414073    :可是軟體安裝這些我都是自己來 很累...24F 08/12 10:36
s6414073    :請廠商弄還需要多個50萬吧
s6414073    :DFS有考慮要架了 目前正在看相關的文章 :-)
touyalin    :不過DFT比起CSD, CCSD來說, 計算量算是很小了.. XD27F 08/12 10:39
s6414073    :應該不會哦 一個晶胞 500多個原子 一次就要一個禮拜28F 08/12 10:41
s6414073    :丟fat node的long queue還算不完= =
s6414073    :因為遇風者有設wall time 所以時間到就把你砍掉
QuentinHu   :完全看不懂  先推 QQ31F 08/12 13:14

--
※ 看板: PC_Shopping 文章推薦值: 0 目前人氣: 0 累積人氣: 819 
分享網址: 複製 已複製
guest
x)推文 r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇