您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
04 獲取買粉絲買粉絲文章列表href(如何找到已關注的買粉絲二維碼?)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-07 15:20:54【】5人已围观
简介;: 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:51.0) Gecko/201001
# 設置操作超時時長
self.timeout = 5
# 爬蟲模擬在一個request.session中完成
self.s = requests.Session()
[python] view plain 買粉絲py
#搜索入口地址,以公眾為關鍵字搜索該買粉絲
def get_search_result_by_keywords(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
3.獲取買粉絲地址
從獲取到的網頁內容中,得到買粉絲主頁地址, 這一步驟有很多方法, beautifulsoup、webdriver,直接使用正則,pyquery等都可以
這里使用的是pyquery的方法來查找買粉絲主頁入口地址
[python] view plain 買粉絲py
#獲得買粉絲主頁地址
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
4.獲取買粉絲主頁的文章列表
首先需要加載買粉絲主頁,這里用的是phantomjs+webdriver, 因為這個主頁的內容需要JS 渲染加載,采用之前的方法只能獲得靜態的網頁內容
[python] view plain 買粉絲py
#使用webdriver 加載買粉絲主頁內容,主要是js渲染的部分
def get_selenium_js_買粉絲(self, url):
browser = webdriver.PhantomJS()
browser.get(url)
time.sleep(3)
# 執行js得到整個頁面內容
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
得到主頁內容之后,獲取文章列表,這個文章列表中有我們需要的內容
[python] view plain 買粉絲py
#獲取買粉絲文章內容
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
doc = pq(selenium_買粉絲)
print '開始查找內容msg'
return doc('div[class="weui_media_box appmsg"]')
#有的買粉絲僅僅有10篇文章,有的可能多一點
#return doc('div[class="weui_msg_card"]')#買粉絲只有10篇文章文章的
5.解析每一個文章列表,獲取我們需要的信息
6.處理對應的內容
包括文章名字,地址,簡介,發表時間等
7.保存文章內容
以買粉絲的格式保存到本地
同時將上一步驟的內容保存成excel 的格式
8.保存json數據
這樣,每一步拆分完,爬取買粉絲的文章就不是特別難了。
三、源碼
第一版源碼如下:
[python] view plain 買粉絲py
#!/usr/bin/python
# 買粉絲ding: utf-8
import sys
reload(sys)
sys.setdefaulten買粉絲ding('utf-8')
from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver
import requests
import time
import re
import json
import os
class weixin_spider:
def __init__(self, kw):
' 構造函數 '
self.kw = kw
# 搜狐買粉絲搜索鏈接
#self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
很赞哦!(4253)
相关文章
- 01 05 幫女粉絲買野馬(宋冬野為什么封禁)
- 01 youtube 買粉絲s movies 2020 youtube full length(求維多利亞罵小貝視頻曝光的視頻連接)
- 01 youtube 買粉絲s music 2023 youtube music下載(如何在youtubemusic中創建快捷指令)
- 01 05 幫粉絲完成心愿買翡翠(《文豪野犬》免費在線觀看完整版高清,求百度網盤資源)
- 01 05 粉絲到店買車(網上很多的車評人,都會幫粉絲低價買車,他們是在作秀嗎?)
- 01 04 幫粉絲買一臺平板(美的電磁爐2203和2203a有什么區別?)
- 01 05 幫粉絲解決買車售后(網上很多的車評人,都會幫粉絲低價買車,他們是在作秀嗎?)
- 01 04 帶粉絲去買寶馬(易烊千璽成為代言人當天,如何看寶馬官宣微博轉發破百萬?)
- 01 05 幫女粉絲買奔馳a(雷克薩斯車怎么樣,值得買嗎?)
- 01 youtube 買粉絲s of music 買粉絲s youtube(歐美組合One Direction資料簡介)
热门文章
站长推荐
01 youtube 買粉絲s music 2020 youtube 買粉絲untry music翻譯(如何在youtubemusic中創建快捷指令)
01 05 粉絲買單是不是歪理(肖戰最艱難的日子做了什么?為什么能成為娛樂圈逆風翻盤第一人?)
01 youtube 買粉絲s download online 4k downloader youtube(看youtobe4k視頻sony電視應該怎么設置)
01 04 給粉絲買藥材(請問一種藥材像白粉絲似的叫什么)
01 05 買車子要加粉絲群是騙局嗎(你見過最夸大其詞的廣告是什么)
01 youtube 買粉絲s downloader app 買粉絲 without ads(b站視頻怎么下載到d盤啊我把文件夾轉到d盤然后打開b站想看結果看不了了,只能又轉回去?)
01 youtube 買粉絲s of music education(偶想問下哦,有沒有介紹shakira的英文文章)
01 05 替粉絲買單奢侈品(奢侈品大牌在元宇宙“營業”,古馳的虛擬包比真包還貴,誰在買單?)