從頭學Python(二) – 抓取網頁資料
上一篇講述了Python的運行環境,這一篇要記錄如何使用Python的自動化來抓取網頁資料。我們先建立好運作的環境,打開Anaconda Navigator,點選Environments,選擇要運作的環境後,在右邊的外掛目錄中搜尋selenium並安裝。 安裝外掛與瀏覽器驅動 接下來要安裝瀏覽器自動化的驅動程式,分別有Chrome和Firefox兩個選擇。 Chrome:http://chromedriver.chromium.org/downloads Firefox:https://github.com/mozilla/geckodriver/releases 下載好後解壓縮並放在自己習慣的路徑,打開 jupyter notebook,新建檔案進行編程 from selenium import webdriver from selenium.webdriver.common.keys import Keys # 驅動要使用絕對路徑 # Chrome driver_path = "/Users/Alex/Desktop/python/chromedriver" driver = webdriver.Chrome(executable_path = driver_path) # Firefox driver_path = "/Users/Alex/Desktop/python/geckodriver" driver = webdriver.Firefox(executable_path = driver_path) # 使用driver開啟網頁 driver.get("http://www.imdb.com/") 使用Python對DOM進行操作 在Python中要對DOM進行操作,可以使用 CSS 選擇器 或是 Xpath 選擇器 對DOM進行選取 # 在搜尋列輸入La La Land... » read more