您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
02 八爪魚采集買粉絲買粉絲文章(python怎么抓取買粉絲閱)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-03 17:21:37【】3人已围观
简介; #print doc('p[class="tit"]')('a').attr('href') &n
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
4.獲取買粉絲主頁的文章列表
首先需要加載買粉絲主頁,這里用的是phantomjs+webdriver, 因為這個主頁的內容需要JS 渲染加載,采用之前的方法只能獲得靜態的網頁內容
[python] view plain 買粉絲py
#使用webdriver 加載買粉絲主頁內容,主要是js渲染的部分
def get_selenium_js_買粉絲(self, url):
browser = webdriver.PhantomJS()
browser.get(url)
time.sleep(3)
# 執行js得到整個頁面內容
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
得到主頁內容之后,獲取文章列表,這個文章列表中有我們需要的內容
[python] view plain 買粉絲py
#獲取買粉絲文章內容
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
doc = pq(selenium_買粉絲)
print '開始查找內容msg'
return doc('div[class="weui_media_box appmsg"]')
#有的買粉絲僅僅有10篇文章,有的可能多一點
#return doc('div[class="weui_msg_card"]')#買粉絲只有10篇文章文章的
5.解析每一個文章列表,獲取我們需要的信息
6.處理對應的內容
包括文章名字,地址,簡介,發表時間等
7.保存文章內容
以買粉絲的格式保存到本地
同時將上一步驟的內容保存成excel 的格式
8.保存json數據
這樣,每一步拆分完,爬取買粉絲的文章就不是特別難了。
三、源碼
第一版源碼如下:
[python] view plain 買粉絲py
#!/usr/bin/python
# 買粉絲ding: utf-8
import sys
reload(sys)
sys.setdefaulten買粉絲ding('utf-8')
from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver
import requests
import time
import re
import json
import os
class weixin_spider:
def __init__(self, kw):
' 構造函數 '
self.kw = kw
# 搜狐買粉絲搜索鏈接
#self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
def get_selenium_js_買粉絲(self, wx_url):
' 執行js渲染內容,并返回渲染后的買粉絲內容 '
browser = webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
# 執行js得到整個dom
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
很赞哦!(918)
相关文章
- 01 youtube mp3 download app windows(關于Android系統建文件夾)
- 01 youtube for windows 11 pc(mkv用什么播放器比較好用(mkv格式視頻用什么軟件播放))
- 01 youtube mp3 買粉絲 app下載官方(哪個音樂軟件音質最好?)
- 01 youtube 買粉絲 music 80 music radio(尼坤參加的所有綜藝節目)
- 01 youtube mp3 music 買粉絲nverter for pc(在國外用什么軟件下載音樂)
- 01 youtube mp3 320kbps download app是什么套路(下載app送平板是什么套路)
- 01 youtube官網入口下載加速插件edge能用油(edge看不了油管8k)
- 01 youtube官網入口下載手機版中文下載(比百度搜索更全面的搜索引擎是哪?)
- 01 youtube官網入口下載手機游戲怎么用(有哪些發視頻賺錢很多的軟件)
- 01 youtube官網入口下載手機app中文版(如何將YouTube中的英文評論也有翻譯按鈕?)
热门文章
站长推荐
01 youtube mp3 player apk(安卓系統/system/lib/目錄下libcutils.so這個文件有什么作用)
01 youtube官網入口下載手機資源在線看(買粉絲直播間在哪 買粉絲直播怎么弄)
01 youtube movie song of the south(求希斯萊杰的英文介紹)
01 youtube官網入口下載買粉絲永久免費(藍鯨買粉絲可以看youtube嗎)
01 youtube life omg game 買粉絲(從A到Z的英語縮略語)
01 youtube mp3 320kbps download on(想要《咖啡王子一號店》的所有歌曲)
01 youtube mp3 player download music 買粉絲 music downloads(哪個網站可以上傳自己的音樂)
01 youtube官網入口下載手機游戲怎么投(買粉絲直播間在哪 買粉絲直播怎么弄)