[問題] 請問如何了解巴哈姆特的網頁結構以抓資料 - terievv板

Disp BBS guest 註冊登入(i) 線上人數: 402

首頁(home) 上頁(↑) 下頁(↓) 末頁(end)

※ 本文為 terievv 轉寄自 ptt.cc 更新時間: 2019-05-20 15:09:14

看板 Python

作者 alubasteve (poorguy)
標題 [問題] 請問如何了解巴哈姆特的網頁結構以抓資料
時間 Sat May 11 10:07:30 2019

我目前正在練習用巴哈姆特的網頁抓資料
https://www.gamer.com.tw/

巴哈姆特電玩資訊站

華人最大動漫及遊戲社群網站，提供 ACG 每日最新新聞、熱門排行榜，以及豐富的討論交流空間，還有精采的個人影音實況、部落格文章。 ...

但是碰到的問題是我無法理解其網頁架構
舉例來說
我想要抓Android安裝榜
所以我開chrome並使用f12去對網頁資料
然後看到https://imgur.com/a/zCehUFB

知道class是"BA-ctag1now"
接著往上看到https://imgur.com/a/rR8Fy5j

知道class是"BA-ctag1"
然後往下看到https://imgur.com/a/nniibSr

知道class是"BA-cbox BA cbox5 BA mobilegamechart
然後往下看到https://imgur.com/a/itCK19J

知道class是"game"+遊戲名稱欄位是"p"
但如果我輸入https://pastebin.com/1fMz0ZCk

Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:59:51) [MSC v.1914 64 bit (AMD6 - Pastebin.com

結果就會失敗

請問我該如何拆解巴哈姆特的網頁架構
還是我的程式本身也有哪裡錯了

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.182.206
※ 文章代碼(AID): #1SrYvaBz (Python)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1557540452.A.2FD.html

→ s860134: 有 id 幹嘛不用 id.... <div id="gamechart-hot">1F 05/11 12:09
→ s860134: class 的功能是為了配合 css 和 js 進行瀏覽器渲染加工
→ s860134: 時的分類，所以可以預期幾乎不會是只出現一次

推 art1: 要寫爬蟲最好去了解一下 html4F 05/11 12:49

→ alubasteve: 給s860134,多謝你的指點,目前已經試出以下結果5F 05/11 18:31
→ alubasteve: https://pastebin.com/J2eHfP43

>>> import requests >>> from bs4 import BeautifulSoup >>> bahammut_ranking_htm - Pastebin.com

→ alubasteve: 只是也如art1所說，不懂html結構的話很難進行下去7F 05/11 18:40
→ alubasteve: 我現在才知道,要抓資料要同時懂程式跟網頁才行
→ alubasteve: 因為我不斷縮小https://pastebin.com/FBTjW4w9

>>> import requests >>> from bs4 import BeautifulSoup >>> bahammut_ranking_htm - Pastebin.com

→ alubasteve: 卻無法拆解出最後的部分,讓我可以拉出排行榜的遊戲名10F 05/11 20:05
→ alubasteve: 附帶一題,請問id或class的名稱你們都是怎麼打的
→ alubasteve: 我都只能一邊看網頁右邊的名稱一邊用手打字
→ alubasteve: 沒有直接COPY貼上到程式裡頭的方法嗎

推 art1: print(soup.select('a.hotgame > p.game'))14F 05/11 20:26
→ art1: 這是利用 css 選擇器來選到你要的元素，所以也要去了解一下
→ art1: 這樣才能比較有效率的抓出想要的資料
推 art1: select 會回傳串列（list)，所以串列元素的text就是你要的

→ alubasteve: 給art1,感謝你的協助https://pastebin.com/hE2DNT3S18F 05/12 00:08

>>> soup.find(id="gamechart-hot").findAll(class_="hotgame") [<a class="hotgame" - Pastebin.com

→ alubasteve: 所以我猜你的程式意思是把a class="hotgame"到19F 05/12 00:10
→ alubasteve: p class="game"之間的資料以序列形式抓出來
→ alubasteve: 只是我不明白若我想要只看最後排行榜的資料
→ alubasteve: 為何是這種結果https://pastebin.com/AK5byWc1

>>> print(soup.select('a.hotgame > p.game')).find(class_="game") [<p class="gam - Pastebin.com

→ alubasteve: https://pastebin.com/C1c97e8Z,我一直沒辦法只顯現23F 05/12 00:15
→ alubasteve: 實際榜單的遊戲排行而去掉前後的內容

推 art1: 你要注意印出來的資料最前面跟最後面有 [跟]25F 05/12 00:38
→ art1: 這代表在裡面（也就是串列list）的元素是以逗號 , 隔開
→ art1: 串列裡面的每一個元素其實都是 bs4 建構的一種物件，包含了
→ art1: 各種資料和函式，你需要的只是串列元素的text屬性值，至於
→ art1: 排行，初步看是按照串列裏面的順序，因為神魔存在索引值 0
→ art1: 的位置
→ art1: 存取text屬性值的程式碼像這樣
→ art1: soup.select('a.hotgame > p.game').text
→ art1: 實際上不會這樣存取，而是用 for..in...迴圈來讀取
→ art1: for item in soup.select('a.hotgame > p.game'):
→ art1: print(item.text)
推 art1: a.hotgame > p.game 是指只要有符合這個順序與類別名稱的
→ art1: html 元素都抓出來
→ art1: 應該還要加上一個標籤名稱才對
→ art1: select 應該是專門用來透過 CSS 選擇器找資料的函式
→ art1: 應該說找 html 元素才對

→ alubasteve: 感謝art1,我嘗試的結果https://pastebin.com/6NjJc3ST41F 05/12 09:23

- Pastebin.com

→ alubasteve: 我原本以為是直接去把<p class="game">後的答案抓出來42F 05/12 09:24
→ alubasteve: 但看來不是,而是遊戲名稱是屬於item要用for叫出來才對
→ alubasteve: 你說的"a.hotgame > p.game 是指只要有符合這個順序
→ alubasteve: 與類別名稱的html 元素都抓出來"是指串列裡原本有很多
→ alubasteve: 資料，但是透過a.hotgame > p.game分離出想要的部分
→ alubasteve: 請問是這樣嗎?
→ alubasteve: 另外,請問你有何推薦的網頁架構或是抓資料的資源
→ alubasteve: 這樣一來我日後要練習的話比較容易找到起點
→ alubasteve: 搞不懂自己錯在哪裡也搞不懂自己對在哪裡真的很頭痛

推 art1: 對，因為 soup 就是用來存 html 解析之後得到的資料51F 05/12 10:57
→ art1: 我一開始寫爬蟲時對 html 跟 python 都不太了解，也是像你這
→ art1: 樣一層一層找下去，但這種方式太痛苦了
→ art1: 後來學了 html 之後，就比較知道要怎麼快速取出已解析的html
→ art1: 元素
→ art1: 在學的時候是連 CSS、JavaScript一起學，實際用 JavaScript
→ art1: 透過 CSS 選擇器去操作各種 html 元素
→ art1: 所以之後就了解到 bs4 已經幫我們把 html 元素都解出來了
→ art1: 只要知道存在哪些對應的位置，並學會取出的語法就好
→ art1: 如果不懂 CSS 選擇器的話，用找字串的方式去處理比較沒效率
推 art1: 看別人寫爬蟲都是練習爬一些把資料整合呈現的網站，例如電影
→ art1: 相關、拍賣相關、股票相關之類的

→ alubasteve: 給art1,我還是第一次聽說CSS選擇器，請問這是軟體嗎63F 05/12 13:39
→ alubasteve: 請問你都推薦哪種?或是哪種網頁你比較推薦我去瞭解
→ alubasteve: 我以後要抓網頁的話,也是需要有一個好的起點,不然
→ alubasteve: 我這樣瞎猜也不是辦法，還是要對網頁架構有足夠瞭解

推 art1: developer.mozilla.org/zh-TW/docs/Glossary/CSS_Selector67F 05/12 15:41
→ art1: 前面自行加上https://

→ alubasteve: 多謝，原來mozilla就有資料,我只知道FIREFOX而已69F 05/12 18:02

推 jiyu520: google比別人給要來的更好70F 05/12 21:41

推 st1009: 右鍵編輯html71F 05/13 21:33
→ st1009: 這樣就能複製了

※ 看板: terievv　文章推薦值: 0 目前人氣: 0 累積人氣: 299　

作者 alubasteve 的最新發文:

+179 [請益] 請問我該加碼0050還是改買套房？ - Stock 板

作者: alubasteve 106.1.224.28 (台灣) 2024-06-30 13:24:32

版上各位先進大家好首先我要謝謝各位先進大約2年前的提點(可以去翻我的舊文) 當時我被和大套牢從105掉到76 後來聽從各位先進建議轉進0050 如果我沒記錯的話當時買的時候是135 如今已經漲 …

470F 187推 8噓
+30 [請益] 請問買不在網站上出現的物件要注意甚麼 - home-sale 板

作者: alubasteve 118.167.53.188 (台灣) 2021-05-08 12:34:47

板上各位先進大家好我出斡失敗之後再度繼續找房這次有一個房仲推薦我一個不在網站上出現的物件但是堅持說此物件有在賣請問這種物件若要交易有哪些地方要注意才能保障權益? …

84F 30推
+20 [請益] 請問房仲要你自己想斡旋價該怎麼辦 - home-sale 板

作者: alubasteve 220.129.66.247 (台灣) 2021-05-02 17:08:55

板上各位先進大家好在下重新振作精神不斷的看房之後有一個物件好奇感興趣想試試看能否買的動但問房仲之後他說斡旋價格(不是起初斡旋金份量)要我自己想屋主也沒講只有給物件的公開喊價這是我第一 …

39F 20推
+21 [請益] 請問哪個選擇都很爛時該如何選擇 - home-sale 板

作者: alubasteve 118.167.50.151 (台灣) 2021-04-25 11:56:44

板上各位先進大家好我繼續看房之後發現一個問題想要請教大家我為何走到卡住每個選擇都很爛又該如何選擇是好以我目前條件離退休還有很長一段時間買的房一定要通勤方便所以又遠又便宜的物件就不適用 …

53F 25推 4噓
+20 [請益] 請問房仲催我週末出來談買房該如何應對 - home-sale 板

作者: alubasteve 180.177.12.66 (台灣) 2021-03-19 22:30:45

版上各位先進大家好在下碰到房仲催約出來談買房的情況想請教大家如何應對比較好我上週末對某個物件下斡為期二周結果房仲吵著要我這週末去約屋主出來談讓我不知如何是好因為幾天前他之前說屋主要花時間 …

69F 26推 6噓

點此顯示更多發文記錄

分享網址: 複製

DispBBS

回到看板(←)《terievv》

r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄同主題: =)首篇 [)上篇 ])下篇

回列表(←) 分享