第一支爬蟲網頁 PTT八卦版

J米的學習日記
7 min readAug 2, 2019

--

推薦學習網站: Python 網頁爬蟲入門實戰 Hahow 老師:Jun-Wei Lin

如果有錯,再麻煩同學與高人指點說明,這隻爬蟲算是我寫過比較完整的,跟大家分享與介紹,首先說明要引入的套件與功用:
1. requests 為 HTTP請求,常用request.get('放網址')
2. BeautifulSoup 美味濃湯?! 用來快速解析所下載的網頁內容
3. re 套件全名為regular expression

網址按下F12可開啟開發人員工具,我第一次看到也覺得挺神奇的,密密麻麻的html語法,先看作是一層一層的樹狀結構。

下面get_page副函式是用get去把網頁中密密麻麻的html下載下來,爬蟲要模仿網頁瀏覽方式因此將User-Agent & cookies等資訊傳入。
步驟零:把web.text把密密麻麻html下載下來...

ptt_url = 'https://www.ptt.cc'
def main():
current_page = get_page(ptt_url+ '/bbs/Gossiping/index.html')
def get_page(url):
headers = {'User-Agent': '每個人不同'} #要抓你自己的
cookies = {'over18': '1'} # 八卦版為成人才能閱讀
web = requests.get(url, headers = headers, cookies = cookies)
if web.status_code == 200: # 200
return web.text
else:
print("Invalid url:%s, and the status_code is: %s"%
(web.url,web.status_code))

因為我們目的為瀏覽今天所有八卦版的發文,因此篩選條件為日期,要一直requests上一頁。
步驟一: div_a['href']拿到上一頁的連結
步驟二: 找尋「目前頁面下的所有發文日期」與「今日日期」比對
步驟三: 如確認為今天日期,則把推文數字或文字轉成數字
步驟四: 把拿到資訊存進articles內
步驟五: 因此articles list內有本頁面所有的資訊,回傳此list & 上一頁網址

def main():
current_page = get_page(ptt_url+ '/bbs/Gossiping/index.html')
today = time.strftime('%m/%d').lstrip('0')
threshold = int(input('篩選推文條件為: ').strip())
def get_article(dom, date): #dom為傳回之文字要轉為html, date為今日日期
web_content = BeautifulSoup(dom, 'html5lib')
div_a = web_content.find('div',class_='btn-group btn-group-
paging').find_all('a')[1]
pre_page = div_a['href'] #得到上一頁連結
articles = []
div_information = web_content.find_all('div', class_='r-ent')
for div in div_information:
this_article_date = div.find('div','date').text.strip()
if this_article_date == date:
if div.find('div','title').a: # 排除已刪文情況
this_title = div.find('div','title').text.strip()
this_article_url =
div.find('div','title').a['href'].strip()
this_push = div.find('div','nrec').text.strip()
this_author = div.find('div','author').text.strip()
if this_push: #處理推文如果不是數字情況
try: this_push = int(this_push) #數字
except ValueError:
if this_push == '爆':
this_push = 99
elif this_push.startswith('X'):
this_push = -10
else:
this_push = 0
else:
this_push = 0
articles.append({
'title':this_title,
'href' :this_article_url,
'author':this_author,
'push_num':this_push
})
return articles, pre_page

步驟一到五為呼叫「def get_article」會執行的事,然而main主要呼叫是gossip_articles(),我們知道while current_articles為list一直存著當前頁面符合今天日期的所有文章資訊對吧?! 那停止條件則為不是今天發文的文章。
步驟六: current_page有資訊把它存進articles的陣列內作整理
步驟七: 如有資訊,則重複步驟零至六;如無資訊,則跳出今日文章資訊已
存入完畢
步驟八: 自己寫一個判斷法則去找出你想要的資訊

def main():
pre_page, articles = gossip_articles(current_page, today,
threshold)
def gossip_articles(current_page, date, threshold):
if current_page: #只要有資訊
articles = [] #今天or昨天文章
current_articles, pre_page = get_article(current_page, date)
while current_articles: #只要其有值
articles += current_articles
current_page = get_page(ptt_url+pre_page)
current_articles, pre_page = get_article(current_page,
date)
print('%s 號共: %d 幾篇文章' % (str(date),len(articles)))
over_target = 0
for row in articles:
if row['push_num'] >= threshold:
print('主題:%s , 作者: %s , 推文數: %s' % (row['title'],
row['author'], row['push_num']))
over_target += 1
print('%s 號超過 %d 的推文有 %d篇 ' % (str(date), threshold,
over_target))
return pre_page, articles

爬蟲學習時間: 7/30~8/2
仍有一些依靠教材的概念去寫,也希望未來可以依照自己的思考邏輯完完整整去寫一隻爬蟲。
萬事起頭難,如果遇到撞牆期(學習曲線開始平緩)不免試著把牆撞破吧!!!
也許你認為把牆撞破可笑,但沒試過、沒嘗試過可能就止步於此...

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

J米的學習日記
J米的學習日記

Written by J米的學習日記

工業工程畢業,但選擇不同的道路,踏上軟體之路。個人網站:https://jamie-life-coding.site , linkedin: https://www.linkedin.com/in/huangjamie/ , email: b10130402@gmail.com

No responses yet

Write a response