哈希技術部落格


Slider

Python爬蟲實作 – 從網路書店擷取書名

「書中自有黃金屋」,從書中可以獲取許多重要的知識。而現在的網路時代,網路書店已逐漸取代傳統書店。所以如何大量而有效的取得網路書籍的資訊,是非常重要的!

今天,我們會分享如何透過python,爬取網路書店上的書籍資訊。

取得博客來網路書店的書籍資訊

首先,開啟博客來書店的熱門書籍排行榜。透過瀏覽器觀察書名的資訊放在html程式中的哪些標籤下。

製作程式,取得書籍名稱

import requestsfrom bs4
import BeautifulSoup
web = requests.get( “https://www.books.com.tw/web/sys_hourstop/home?loc=P_0022_more_001” )
content = BeautifulSoup( web.text, “html.parser” )title = content.select( “.type02_bd-a h4 a” )
arc = content.select( “.type02_bd-a .type02_btn02 span” )
for i in title:
print( “名稱:” + i.text )

執行成果

延伸挑戰

除了取得書本名稱以外,也可以透過同樣的方法,取得書籍的作者、評論…等資訊。搜集資訊以後,就可以針對這些資訊進行後續分析,例如排行榜上的書籍哪些作者最熱門…等等應用。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *