※ 本文為 nakts0123.bbs. 轉寄自 ptt.cc 更新時間: 2013-05-05 19:16:33
看板 Python
作者 標題 [問題] 如何將網站上的數十筆資料一口氣載下來?
時間 Thu Aug 11 17:22:07 2011
大家好
小弟學web programming一陣子了
是學Google App Engine並使用Python寫
最近小弟受到一位長輩所託
希望我將司法院法學資料檢索系統裡面的一部分判決書載下來 作進一步data mining之用
http://jirs.judicial.gov.tw/Index.htm
例如:判決書查詢→台北地方法院、民事、檢索「保護中心」
則會出現約100份判決書
請問要怎麼樣將這100份判決書載下來呢?
小弟之前有使用過Beautiful Soup 知道它可以做parse的動作
是否就是利用它來載判決書呢?
還是這件事有其他適合的工具可以使用
並不需要Beautiful Soup?
煩請各位大大指點迷津 謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.231.24.204
→ :我直覺想到是urllib這一類的加上HTMLParser?1F 08/11 23:54
推 :對呀, 應該很簡單, urllib2..加file..2F 08/12 14:57
→ :抓無名小站圖片都用這招(誤)
→ :抓無名小站圖片都用這招(誤)
→ :之前寫過spider抓大量網頁 也用urllib2+beautiful soap4F 08/12 16:26
推 :urllib + regex 或許是一個方法? 我是這樣做啦5F 08/13 00:19
→ :雖然我parse的是這份csv http://goo.gl/Qs7VH
→ :http://goo.gl/k5YCS 我去Parse回來長的樣子
→ :雖然我parse的是這份csv http://goo.gl/Qs7VH
→ :http://goo.gl/k5YCS 我去Parse回來長的樣子
感謝各位大大 用urllib2加上BeautifulSoup便解決
※ 編輯: poopoo888888 來自: 61.231.24.139 (08/14 09:58)
推 :urlfetch8F 08/16 10:21
推 :pyquery 用了你會愛上它9F 08/16 11:24
--
※ 看板: Gabinius 文章推薦值: 0 目前人氣: 0 累積人氣: 58
作者 poopoo888888 的最新發文:
- 69F 7推 6噓
- 26F 6推 3噓
- 安安,小弟奈米軟體創業者,先不聊教育、台灣人腦袋之類,文化的面向 光就客觀的地理、歷史狀態,台灣要發展軟體產業,目前至少有七大挑戰 1. 國家大小 軟體業因為超級規模化、邊際成本極低的特性,本來就是 …172F 47推 4噓
- 一年過去了,我來回一下自己的文,分享一下後續@@ 當初發文之後,很多先進指出,內容太難、很爛,根本不適合新手 這一年的觀察,也確實發現,有持續來寫專案、持續跑完進度的人不多 但也有兩位真的把全部作業 …32F 23推 1噓
- 12F 10推
點此顯示更多發文記錄
→
guest
回列表(←)
分享