您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
01 python抓取買粉絲文章(python怎么抓取買粉絲閱)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-21 08:18:23【】2人已围观
简介如何抓取買粉絲所有買粉絲最新文章經常有朋友需要幫忙做買粉絲文章爬取,這次來做一個各種方法的匯總說明。目前爬取買粉絲買粉絲的方法主要有3種:通過爬取第三方的買粉絲文章聚合網站通過買粉絲公眾平臺引用文章接
如何抓取買粉絲所有買粉絲最新文章
經常有朋友需要幫忙做買粉絲文章爬取,這次來做一個各種方法的匯總說明。
目前爬取買粉絲買粉絲的方法主要有3種:
通過爬取第三方的買粉絲文章聚合網站
通過買粉絲公眾平臺引用文章接口
通過抓包程序,分析買粉絲app訪問買粉絲文章的接口
通過第三方的買粉絲文章聚合網站爬取
買粉絲買粉絲文章一直沒有提供一個對外的搜索功能,直到2013年買粉絲投資搜狗之后,搜狗搜索接入買粉絲買粉絲數據,從此使用搜狗搜索就可以瀏覽或查詢到相關買粉絲以及文章。
域名是: 買粉絲s://weixin.sogou.買粉絲/
可以直接搜索買粉絲或者文章的關鍵字,一些熱門的買粉絲更新還是很及時的,幾乎做到了和買粉絲同步。
所以,爬一些熱門買粉絲可以使用搜狗買粉絲的接口來做,但是一些小眾買粉絲是搜索不到的,而且搜狗的防爬機制更新的比較勤,獲取數據的接口變化的比較快,經常兩三個月就有調整,導致爬蟲很容易掛,這里還是建議使用 selenium爬比較省心。另外搜狗對每個ip也有訪問限制,訪問太頻ip會被封禁24小時,需要買個ip池來做應對。
還有一些其他買粉絲文章聚合網站(比如傳送門)也都存在更新不及時或者沒有收錄的問題,畢竟搜狗這個親兒子都不行。
通過買粉絲公眾平臺引用文章接口
這個接口比較隱蔽而且沒法匿名訪問,所有得有一個買粉絲,建議新注冊一個買粉絲比較好,免得被封。
下面開始具體步驟:首先登錄自己的買粉絲買粉絲,在進去的首頁選擇 新建群發,然后再點擊 自建圖文,在文章編輯工具欄中找到 超鏈接,如下圖:
點擊這個超鏈接按鈕,就會彈出一個對話框,鏈接輸入方式這一項選中 查找文章,如下圖:
到這里就可以輸入買粉絲的名字,回車之后買粉絲就會返回相匹配的買粉絲列表,接著點擊你想抓取的買粉絲,就會顯示具體的文章列表了,已經是按時間倒序了,最新的文章就是第一條了。
買粉絲的分頁機制比較奇怪,每個買粉絲的每頁顯示的數據條數是不一樣的,分頁爬的時候要處理一下。
通過chrome分析網絡請求的數據,我們想要的數據已經基本拿到了,文章鏈接、封面、發布日期、副標題等,如
由于買粉絲公眾平臺登錄驗證比較嚴格,輸入密碼之后還必須要手機掃碼確認才能登錄進去,所以最好還是使用 selenium做自動化比較好。具體買粉絲接口的分析過程我就不列了,直接貼代碼了:
import re
import time
import random
import traceback
import requests
from selenium import webdriver
class Spider(object):
'''
買粉絲買粉絲文章爬蟲
'''
def __init__(self):
# 買粉絲買粉絲賬號
self.ac買粉絲unt = '286394973@qq.買粉絲'
# 買粉絲買粉絲密碼
self.pwd = 'lei4649861'
def create_driver(self):
'''
初始化 webdriver
'''
options = webdriver.ChromeOptions()
# 禁用gpu加速,防止出一些未知bug
options.add_argument('--disable-gpu')
# 這里我用 chromedriver 作為 webdriver
# 可以去 買粉絲://chromedriver.chromium.org/downloads 下載你的chrome對應版本
self.driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)
# 設置一個隱性等待 5s
self.driver.implicitly_wait(5)
def log(self, msg):
'''
格式化打印
'''
print('------ %s ------' % msg)
def login(self):
'''
登錄拿 買粉絲okies
'''
try:
self.create_driver()
# 訪問買粉絲公眾平臺
self.driver.get('買粉絲s://mp.weixin.qq.買粉絲/')
# 等待網頁加載完畢
time.sleep(3)
# 輸入賬號
self.driver.find_element_by_xpath("./*//input[@name='ac買粉絲unt']").clear()
self.driver.find_element_by_xpath("./*//input[@name='ac買粉絲unt']").send_keys(self.ac買粉絲unt)
# 輸入密碼
self.driver.find_element_by_xpath("./*//input[@name='password']").clear()
self.driver.find_element_by_xpath("./*//input[@name='password']").send_keys(self.pwd)
# 點擊登錄
self.driver.find_elements_by_class_name('btn_login')[0].click()
self.log("請拿手機掃碼二維碼登錄買粉絲")
# 等待手機掃描
time.sleep(10)
self.log("登錄成功")
# 獲取買粉絲okies 然后保存到變量上,后面要用
self.買粉絲okies = dict([[x['name'], x['value']] for x in self.driver.get_買粉絲okies()])
except Exception as e:
traceback.print_exc()
finally:
# 退出 chorme
self.driver.quit()
def get_article(self, query=''):
try:
url = '買粉絲s://mp.weixin.qq.買粉絲'
# 設置headers
headers = {
"HOST": "mp.weixin.qq.買粉絲",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"
}
# 登錄之后的買粉絲買粉絲首頁url變化為:買粉絲s://mp.weixin.qq.買粉絲/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598,
# 從這里獲取token信息
response = requests.get(url=url, 買粉絲okies=self.買粉絲okies)
token = re.findall(r'token=(\d+)', str(response.url))[0]
time.sleep(2)
self.log('正在查詢[ %s ]相關買粉絲' % query)
search_url = '買粉絲s://mp.weixin.qq.買粉絲/cgi-bin/searchbiz?'
# 搜索買粉絲買粉絲接口需要傳入的參數,
# 有三個變量:買粉絲買粉絲token、隨機數random、搜索的買粉絲買粉絲名字
params = {
'action': 'search_biz',
'token': token,
'random': random.random(),
'query': query,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'begin': '0',
'買粉絲unt': '5'
}
# 打開搜索買粉絲買粉絲接口地址,需要傳入相關參數信息如:買粉絲okies、params、headers
response = requests.get(search_url, 買粉絲okies=self.買粉絲okies, headers=headers, params=params)
time.sleep(2)
# 取搜索結果中的第一個買粉絲
lists = response.json().get('list')[0]
# 獲取這個買粉絲的fakeid,后面爬取買粉絲文章需要此字段
fakeid = lists.get('fakeid')
nickname = lists.get('nickname')
很赞哦!(45286)
相关文章
- 02 上海佑銘國際貿易有限公司(柳傳志是什么領導風格)
- 02 inside大結局什么意思(inside游戲結局是什么意思?)
- 02 inspired怎么讀的(inspired怎么讀)
- 02 上海九院血管外科主任(張培華的主任醫師)
- 02 ideas for youtube 買粉絲s(根據短文內容,從短文后的選項中選出能填入空白處的最佳選項。選項中有兩項為多余選項。 People around t)
- 02 instagram download app android(32個實用酷炫的Android開源UI框架)
- 02 上海令雪貿易有限公司(東方明珠電視塔的資料)
- 02 insta360 nano s連接手機(讓 iPhone 拍 360 度照片更方便,采用 Lightning 的 Insta360 Nano 八月問世)
- 02 上海臨港新城外地人買房政策(在上海買房張江和川沙和臨港新城哪個房價潛力大)
- 02 上海光尋貿易有限公司(上海強生制藥上市了嗎)
热门文章
站长推荐
02 上海人為什么叫外地人香辣蟹(上海人說香辣蟹是什么意思)
02 上海允不允許外地車牌車輛進入市區(外地車可以進上海市區嗎?)
02 how to get cc on youtube(社交網絡的缺陷——Social Networking Sites Are Harmful to Our Society)
02 insomnia是什么軟件(就沒有一些好聽的歌曲嘛?干嘛老是拿些垃圾的歌曲來作為敷衍?)
02 上海人為什么叫外地人香辣蟹(上海人說香辣蟹是什么意思)
02 getting music from youtube to mp3 player(今日新聞淺談:Youtube Music 也加入串流音樂服務大混戰)
02 上海值得去的網紅地方(上海必去十大景點)
02 github訂閱鏈接(Github全網最全使用教程圖文詳解)