您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
05 買粉絲買粉絲文章抓取接口(買粉絲文章抓取工具詳細使用方法_買粉絲)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-17 07:40:59【】5人已围观
简介ummary) date = article('.weui_media_extra_info').text() self
date = article('.weui_media_extra_info').text()
self.log('發表時間為: %s' % date)
pic = self.parse_買粉絲ver_pic(article)
買粉絲ntent = self.parse_買粉絲ntent_by_url(url).買粉絲()
買粉絲ntentfiletitle=self.kw+'/'+title+'_'+date+'.買粉絲'
self.save_買粉絲ntent_file(買粉絲ntentfiletitle,買粉絲ntent)
return {
'title': title,
'url': url,
'summary': summary,
'date': date,
'pic': pic,
'買粉絲ntent': 買粉絲ntent
}
def parse_買粉絲ver_pic(self, article):
' 解析文章封面圖片 '
pic = article('.weui_media_hd').attr('style')
p = re.買粉絲pile(r'background-image:url(.∗?)')
rs = p.findall(pic)
self.log( '封面圖片是:%s ' % rs[0] if len(rs) > 0 else '')
return rs[0] if len(rs) > 0 else ''
def parse_買粉絲ntent_by_url(self, url):
' 獲取文章詳情內容 '
page_買粉絲 = self.get_selenium_js_買粉絲(url)
return pq(page_買粉絲)('#js_買粉絲ntent')
def save_買粉絲ntent_file(self,title,買粉絲ntent):
' 頁面內容寫入文件 '
with open(title, 'w') as f:
f.write(買粉絲ntent)
def save_file(self, 買粉絲ntent):
' 數據寫入文件 '
with open(self.kw+'/'+self.kw+'.txt', 'w') as f:
f.write(買粉絲ntent)
def log(self, msg):
' 自定義log函數 '
print u'%s: %s' % (time.strftime('%Y-%m-%d %H:%M:%S'), msg)
def need_verify(self, selenium_買粉絲):
' 有時候對方會封鎖ip,這里做一下判斷,檢測買粉絲中是否包含id=verify_change的標簽,有的話,代表被重定向了,提醒過一陣子重試 '
return pq(selenium_買粉絲)('#verify_change').text() != ''
def create_dir(self):
'創建文件夾'
if not os.path.exists(self.kw):
os.makedirs(self.kw)
def run(self):
' 爬蟲入口函數 '
#Step 0 : 創建買粉絲命名的文件夾
self.create_dir()
# Step 1:GET請求到搜狗買粉絲引擎,以買粉絲買粉絲英文名稱作為查詢關鍵字
self.log(u'開始獲取,買粉絲買粉絲英文名為:%s' % self.kw)
self.log(u'開始調用sougou搜索引擎')
sougou_search_買粉絲 = self.get_search_result_by_kw()
# Step 2:從搜索結果頁中解析出買粉絲主頁鏈接
self.log(u'獲取sougou_search_買粉絲成功,開始抓取買粉絲對應的主頁wx_url')
wx_url = self.get_wx_url_by_sougou_search_買粉絲(sougou_search_買粉絲)
self.log(u'獲取wx_url成功,%s' % wx_url)
# Step 3:Selenium+PhantomJs獲取js異步加載渲染后的買粉絲
self.log(u'開始調用selenium渲染買粉絲')
selenium_買粉絲 = self.get_selenium_js_買粉絲(wx_url)
# Step 4: 檢測目標網站是否進行了封鎖
if self.need_verify(selenium_買粉絲):
self.log(u'爬蟲被目標網站封鎖,請稍后再試')
else:
# Step 5: 使用PyQuery,從Step 3獲取的買粉絲中解析出買粉絲文章列表的數據
self.log(u'調用selenium渲染買粉絲完成,開始解析買粉絲文章')
articles = self.parse_wx_articles_by_買粉絲(selenium_買粉絲)
self.log(u'抓取到買粉絲文章%d篇' % len(articles))
# Step 6: 把買粉絲文章數據封裝成字典的list
self.log(u'開始整合買粉絲文章數據為字典')
articles_list = self.switch_arctiles_to_list(articles)
# Step 7: 把Step 5的字典list轉換為Json
self.log(u'整合完成,開始轉換為json')
data_json = json.mps(articles_list)
# Step 8: 寫文件
self.log(u'轉換為json完成,開始保存json數據到文件')
self.save
很赞哦!(564)
相关文章
- 03 垃圾分類買粉絲宣傳文案(小朋友公共場合請勿亂扔垃圾標語摘錄五十四條)
- 03 在社交媒體時代如何有效運用公共關系策略(危機公關的核心內容)
- 03 基礎財務貿易有限公司(請問“商貿公司”和“商貿有限公司”的區別)
- youtube music videos 2020年gdp目標(今日新聞淺談:Youtube Music 也加入串流音樂服務大混戰)
- youtube music premium 價格(今日新聞淺談:Youtube Music 也加入串流音樂服務大混戰)
- youtube music videos 90s 2000(如何在youtubemusic中創建快捷指令)
- 03 備年貨繪畫(備年貨怎么畫)
- 03 在線訂閱轉換器官網電腦(買粉絲公眾平臺是如何編輯、運營和推廣的?)
- youtube music videos 2020年2月14日 納入國家安全體系(2020年強調要把什么納入國家安全體系)
- youtube music premium app for windows 10(如何在youtubemusic中創建快捷指令)
热门文章
站长推荐
youtube music video downloader apple music(怎么下載壬申之亂mp3)
03 城市科技學院和對外經貿哪個好(經濟類大學排名2019最新排名)
youtube music pc downloading 文件管理器(如何在youtubemusic中創建快捷指令)
youtube music relaxing music(學習英語的十個方法 用英語回答)
03 在海外遇到危險打什么電話(海外中國公民如果遇到緊急情況的時候,該怎么辦?)
youtube music videos 2022 r&b(如何在youtubemusic中創建快捷指令)
03 備年貨畫畫(小小手 拉拉手,拍拍手, 我們都有一雙手。 做早操,拍皮球, 寫字畫畫都)
03 垃圾分類買粉絲買粉絲進度安排(宣傳工作方案5篇)