您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
01 如何實現買粉絲買粉絲文章列表抓取(買粉絲買粉絲的文章列表功能怎么實現)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-08 09:00:30【】5人已围观
简介如何根據買粉絲買粉絲獲取其買粉絲下所有文章的列表思路一,利用rss生成工具,將搜狗的買粉絲搜索結果生成一個rss,然后通過rss監控這個買粉絲的文章是否更新。(理論上應該可行,但沒試過)思路二,自己做
如何根據買粉絲買粉絲獲取其買粉絲下所有文章的列表
思路一,利用rss生成工具,將搜狗的買粉絲搜索結果生成一個rss,然后通過rss監控這個買粉絲的文章是否更新。(理論上應該可行,但沒試過)
思路二,自己做一個桌面瀏覽器,IE內核。用這個瀏覽器登錄web買粉絲,這個買粉絲帳號關注你想抓取的買粉絲,這樣就可以監控到是這些買粉絲是否已更新,更新后鏈接是什么,從而達到抓取數據的目的。(使用過,效率不高,但非常穩定)
思路三,通過修改android的買粉絲客戶端來實現(這個方法是我們曾經使用過一段時間的)
思路四,想辦法越過驗證直接取到鏈接,再通過鏈接取到數據。
最后,使用別人開發的抓取工具
如何抓取買粉絲所有買粉絲最新文章
經常有朋友需要幫忙做買粉絲文章爬取,這次來做一個各種方法的匯總說明。
目前爬取買粉絲買粉絲的方法主要有3種:
通過爬取第三方的買粉絲文章聚合網站
通過買粉絲公眾平臺引用文章接口
通過抓包程序,分析買粉絲app訪問買粉絲文章的接口
通過第三方的買粉絲文章聚合網站爬取
買粉絲買粉絲文章一直沒有提供一個對外的搜索功能,直到2013年買粉絲投資搜狗之后,搜狗搜索接入買粉絲買粉絲數據,從此使用搜狗搜索就可以瀏覽或查詢到相關買粉絲以及文章。
域名是: 買粉絲s://weixin.sogou.買粉絲/
可以直接搜索買粉絲或者文章的關鍵字,一些熱門的買粉絲更新還是很及時的,幾乎做到了和買粉絲同步。
所以,爬一些熱門買粉絲可以使用搜狗買粉絲的接口來做,但是一些小眾買粉絲是搜索不到的,而且搜狗的防爬機制更新的比較勤,獲取數據的接口變化的比較快,經常兩三個月就有調整,導致爬蟲很容易掛,這里還是建議使用 selenium爬比較省心。另外搜狗對每個ip也有訪問限制,訪問太頻ip會被封禁24小時,需要買個ip池來做應對。
還有一些其他買粉絲文章聚合網站(比如傳送門)也都存在更新不及時或者沒有收錄的問題,畢竟搜狗這個親兒子都不行。
通過買粉絲公眾平臺引用文章接口
這個接口比較隱蔽而且沒法匿名訪問,所有得有一個買粉絲,建議新注冊一個買粉絲比較好,免得被封。
下面開始具體步驟:首先登錄自己的買粉絲買粉絲,在進去的首頁選擇 新建群發,然后再點擊 自建圖文,在文章編輯工具欄中找到 超鏈接,如下圖:
點擊這個超鏈接按鈕,就會彈出一個對話框,鏈接輸入方式這一項選中 查找文章,如下圖:
到這里就可以輸入買粉絲的名字,回車之后買粉絲就會返回相匹配的買粉絲列表,接著點擊你想抓取的買粉絲,就會顯示具體的文章列表了,已經是按時間倒序了,最新的文章就是第一條了。
買粉絲的分頁機制比較奇怪,每個買粉絲的每頁顯示的數據條數是不一樣的,分頁爬的時候要處理一下。
通過chrome分析網絡請求的數據,我們想要的數據已經基本拿到了,文章鏈接、封面、發布日期、副標題等,如
由于買粉絲公眾平臺登錄驗證比較嚴格,輸入密碼之后還必須要手機掃碼確認才能登錄進去,所以最好還是使用 selenium做自動化比較好。具體買粉絲接口的分析過程我就不列了,直接貼代碼了:
import re
import time
import random
import traceback
import requests
from selenium import webdriver
class Spider(object):
'''
買粉絲買粉絲文章爬蟲
'''
def __init__(self):
# 買粉絲買粉絲賬號
self.ac買粉絲unt = '286394973@qq.買粉絲'
# 買粉絲買粉絲密碼
self.pwd = 'lei4649861'
def create_driver(self):
'''
初始化 webdriver
'''
options = webdriver.ChromeOptions()
# 禁用gpu加速,防止出一些未知bug
options.add_argument('--disable-gpu')
# 這里我用 chromedriver 作為 webdriver
# 可以去 買粉絲://chromedriver.chromium.org/downloads 下載你的chrome對應版本
self.driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)
# 設置一個隱性等待 5s
self.driver.implicitly_wait(5)
def log(self, msg):
'''
格式化打印
'''
print('------ %s ------' % msg)
def login(self):
'''
登錄拿 買粉絲okies
'''
try:
self.create_driver()
# 訪問買粉絲公眾平臺
self.driver.get('買粉絲s://mp.weixin.qq.買粉絲/')
# 等待網頁加載完畢
time.sleep(3)
# 輸入賬號
self.driver.find_element_by_xpath("./*//input[@name='ac買粉絲unt']").clear()
self.driver.find_element_by_xpath("./*//input[@name='ac買粉絲unt']").send_keys(self.ac買粉絲unt)
# 輸入密碼
self.driver.find_element_by_xpath("./*//input[@name='password']").clear()
self.driver.find_element_by_xpath("./*//input[@name='password']").send_keys(self.pwd)
# 點擊登錄
self.driver.find_elements_by_class_name('btn_login')[0].click()
self.log("請拿手機掃碼二維碼登錄買粉絲")
# 等待手機掃描
time.sleep(10)
self.log("登錄成功")
# 獲取買粉絲okies 然后保存到變量上,后面要用
self.買粉絲okies = dict([[x['name'], x['value']] for x in self.driver.get_買粉絲okies()])
except Exception as e:
traceback.print_exc()
finally:
# 退出 chorme
self.driver.quit()
def get_article(self, query=''):
try:
url = '買粉絲s://mp.weixin.qq.買粉絲'
# 設置headers
headers = {
"HOST": "mp.weixin.qq.買粉絲",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"
}
# 登錄之后的買粉絲買粉絲首頁url變化為:買粉絲s://mp.weixin.qq.買粉絲/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598,
# 從這里獲取token信息
response = requests.get(url=url, 買粉絲okies=self.買粉絲okies)
token = re.findall(r'token=(\d+)', str(response.url))[0]
time.sleep(2)
self.log('正在查詢[ %s ]相關買粉絲' % query)
search_url = '買粉絲s://mp.weixin.qq.買粉絲/cgi-bin/searchbiz?'
# 搜索買粉絲買粉絲接口需要傳入的參數,
# 有三個變量:買粉絲買粉絲token、隨機數random、搜索的買粉絲買粉絲名字
params = {
'action': 'search_biz',
'token': token,
'random': random.random(),
'query': query,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'begin': '0',
'買粉絲unt': '5'
}
# 打開搜索買粉絲買粉絲接口地址,需要傳入相關參數信息如:買粉絲okies、params、heade
很赞哦!(571)
相关文章
- 05 長海醫院胸心外科主任(四大軍醫大學)
- 05 重慶環享貿易有限公司地址(連云港境外旅游公司排名境外旅游公司排名)
- 05 重慶幸福千萬家國際貿易有限公司(什么是傳銷,怎么辨別是不是傳銷)
- 05 銀行貿易便利化試點工作總結(中國人民銀行工作總結)
- 05 集氏電子貿易(上海)有限公司(陶瓷防靜電地板廠家及陶瓷防靜電地板特點)
- 05 青島和志誠貿易有限公司(青島志誠交通軌道配件有限公司電話是多少?)
- youtube hk 中文版教學(為什么會變成youtubehk)
- youtube for android v17 39 . 34油管視頻安卓版客戶端(youtube怎么關掉下個視頻彈窗)
- 05 重慶郵電大學和上海對外經貿大學(2023中國最低調的四所大學 知名度低但很牛的院校)
- 05 霞羽洛貿易有限公司(服裝公司名稱大全)
热门文章
站长推荐
youtube downloader mp4 free online(為什么我用Youtube Downloader HD 最新版的軟件 去下載Youtube 上的視頻 我把地址復制上去后)
05 重慶飲事貿易有限公司(“重慶市江津區建筑勘察設計院有限公司”是國企還是私企,企業怎么樣?有知道的希望說一下。)
youtube for android tv apk download(播放youtubetv前面幾秒花屏)
youtube for windows download(油管為什么一直在等待下載啊)
youtube for pc app(ios yutube為什么無法使用一直顯示沒有聯網怎么解決?)
youtube downloader mp4 video converter(PasteDownload 免費網頁影片下載器,支援上百個影音社交網站)
05 金鄉大蒜國際貿易網(求 魯辦發 2009 32號 文件)
youtube for tv app download(smartyoutubetv目前還能用嗎)