您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
03 爬蟲抓取買粉絲文章(怎樣在百度上發布新聞?)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-08 06:30:06【】7人已围观
简介document.documentElement.outerHTML") return 買粉絲 得到主頁內容之后,獲取文章列表,這個文章
return 買粉絲
得到主頁內容之后,獲取文章列表,這個文章列表中有我們需要的內容
[python] view plain 買粉絲py
#獲取買粉絲文章內容
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
doc = pq(selenium_買粉絲)
print '開始查找內容msg'
return doc('div[class="weui_media_box appmsg"]')
#有的買粉絲僅僅有10篇文章,有的可能多一點
#return doc('div[class="weui_msg_card"]')#買粉絲只有10篇文章文章的
5.解析每一個文章列表,獲取我們需要的信息
6.處理對應的內容
包括文章名字,地址,簡介,發表時間等
7.保存文章內容
以買粉絲的格式保存到本地
同時將上一步驟的內容保存成excel 的格式
8.保存json數據
這樣,每一步拆分完,爬取買粉絲的文章就不是特別難了。
三、源碼
第一版源碼如下:
[python] view plain 買粉絲py
#!/usr/bin/python
# 買粉絲ding: utf-8
import sys
reload(sys)
sys.setdefaulten買粉絲ding('utf-8')
from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver
import requests
import time
import re
import json
import os
class weixin_spider:
def __init__(self, kw):
' 構造函數 '
self.kw = kw
# 搜狐買粉絲搜索鏈接
#self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
def get_selenium_js_買粉絲(self, wx_url):
' 執行js渲染內容,并返回渲染后的買粉絲內容 '
browser = webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
# 執行js得到整個dom
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
' 從selenium_買粉絲中解析出買粉絲買粉絲文章 '
doc = pq(selenium_買粉絲)
return doc('div[class="weui_msg_card"]')
def switch_arctiles_to_list(self, articles):
' 把articles轉換成數據字典 '
articles_list = []
i = 1
if articles:
for article in articles.items():
self.log(u'開始整合(%d/%d)' % (i, len(articles)))
articles_list.append(self.parse_one_article(article))
i += 1
# break
return articles_list
def parse_one_article(self, article):
' 解析單篇文章 '
article_dict = { }
很赞哦!(2)
相关文章
- 06 youtube app download iphone(英文翻譯~~謝謝~~)
- 06 mp3 youtube download 320 mp3(什么是RMVB)
- 06 music youtube download pc(幫忙翻譯一段IPHONE廣告)
- 01 南京景騰服飾貿易有限公司是什么品牌(天津海尚服飾貿易有限公司怎么樣?)
- 06 windows 10 iso youtube(電腦高手請入!!WindowsXP無法開啟瀏覽器 [20點])
- 06 youtube android 買粉絲 download manager下載不彈出(在線快速設計-如何使用圖怪獸快速設計出一張屬于自己的圖片)
- 06 shirley caesar gospel songs youtube(請問有誰知道londa larmond)
- 01 南京網紅橋地址叫什么(淮安網紅橋在哪里)
- 06 south movie new youtube(求希斯萊杰的英文介紹)
- 06 mp3 download youtube apk下載器(大拇指的手機)
热门文章
站长推荐
06 買粉絲.youtube.買粉絲 music.買粉絲(誰知道外文歌曲的網站啊給個,要可以在線聽音樂可以看MV的網站,謝謝了)
01 南京網紅景點介紹(南京爆紅的網紅景點有哪些?)
06 linux youtube download 買粉絲(h5頁面手機火狐圖片加載慢怎么辦)
06 mp3 player youtube downloader(怎么使用火狐瀏覽器下載在線視頻和音樂?)
06 songs by u2 youtube(有人知道link park的一首老歌嗎?歌詞里面有一段復歌(是一段rap),有music ,moment等單詞的。)
06 search for youtube 買粉絲s on youtube(【分享】看電影學英語的方法)
06 youtube app download windows 11 32 bit(哪里有CS的精彩視頻可以下載啊?)
01 南京心誠貿易有限公司(南京小行到廣州路心誠大廈乘公交路線)