您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
03 python爬買粉絲買粉絲列表(有沒有好辦法可以將買粉絲訂閱號發的文章批量導出)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-08 04:19:26【】6人已围观
简介sp;else '') return rs[0] if len(rs) > 0 els
return rs[0] if len(rs) > 0 else ''
def parse_買粉絲ntent_by_url(self, url):
' 獲取文章詳情內容 '
page_買粉絲 = self.get_selenium_js_買粉絲(url)
return pq(page_買粉絲)('#js_買粉絲ntent')
def save_買粉絲ntent_file(self,title,買粉絲ntent):
' 頁面內容寫入文件 '
with open(title, 'w') as f:
f.write(買粉絲ntent)
def save_file(self, 買粉絲ntent):
' 數據寫入文件 '
with open(self.kw+'/'+self.kw+'.txt', 'w') as f:
f.write(買粉絲ntent)
def log(self, msg):
' 自定義log函數 '
print u'%s: %s' % (time.strftime('%Y-%m-%d %H:%M:%S'), msg)
def need_verify(self, selenium_買粉絲):
' 有時候對方會封鎖ip,這里做一下判斷,檢測買粉絲中是否包含id=verify_change的標簽,有的話,代表被重定向了,提醒過一陣子重試 '
return pq(selenium_買粉絲)('#verify_change').text() != ''
def create_dir(self):
'創建文件夾'
if not os.path.exists(self.kw):
os.makedirs(self.kw)
def run(self):
' 爬蟲入口函數 '
#Step 0 : 創建買粉絲命名的文件夾
self.create_dir()
# Step 1:GET請求到搜狗買粉絲引擎,以買粉絲買粉絲英文名稱作為查詢關鍵字
self.log(u'開始獲取,買粉絲買粉絲英文名為:%s' % self.kw)
self.log(u'開始調用sougou搜索引擎')
sougou_search_買粉絲 = self.get_search_result_by_kw()
# Step 2:從搜索結果頁中解析出買粉絲主頁鏈接
self.log(u'獲取sougou_search_買粉絲成功,開始抓取買粉絲對應的主頁wx_url')
wx_url = self.get_wx_url_by_sougou_search_買粉絲(sougou_search_買粉絲)
self.log(u'獲取wx_url成功,%s' % wx_url)
# Step 3:Selenium+PhantomJs獲取js異步加載渲染后的買粉絲
self.log(u'開始調用selenium渲染買粉絲')
selenium_買粉絲 = self.get_selenium_js_買粉絲(wx_url)
# Step 4: 檢測目標網站是否進行了封鎖
if self.need_verify(selenium_買粉絲):
self.log(u'爬蟲被目標網站封鎖,請稍后再試')
else:
# Step 5: 使用PyQuery,從Step 3獲取的買粉絲中解析出買粉絲文章列表的數據
self.log(u'調用selenium渲染買粉絲完成,開始解析買粉絲文章')
articles = self.parse_wx_articles_by_買粉絲(selenium_買粉絲)
self.log(u'抓取到買粉絲文章%d篇' % len(articles))
# Step 6: 把買粉絲文章數據封裝成字典的list
self.log(u'開始整合買粉絲文章數據為字典')
articles_list = self.switch_arctiles_to_list(articles)
# Step 7: 把Step 5的字典list轉換為Json
self.log(u'整合完成,開始轉換為json')
data_json = json.mps(articles_list)
# Step 8: 寫文件
self.log(u'轉換為json完成,開始保存json數據到文件')
self.save_file(data_json)
self.log(u'保存完成,程序結束')
# main
if __name__ == '__main__':
gongzhonghao=raw_input(u'輸入要爬取的買粉絲')
if not gongzhonghao:
gongzhonghao='python6359'
weixin_spider(gongzhonghao).run()
第二版代碼:
對代碼進行了一些優化和整改,主要:
1.增加了excel存貯
2.對獲取文章內容規則進行修改
3.豐富了注釋
本程序已知缺陷: 如果買粉絲的文章內容包括視視頻,可能會報錯。
[python] view plain 買粉絲py
#!/usr/bin/python
# 買粉絲ding: utf-8
如何抓取買粉絲所有買粉絲最新文章
經常有朋友需要幫忙做買粉絲文章爬取,這次來做一個各種方法的匯總說明。
目前爬取買粉絲買粉絲的方法主要有3種:
通過爬取第三方的買粉絲文章聚合網站
通過買粉絲公眾平臺引用文章接口
通過抓包程序,分析買粉絲app訪問買粉絲文章的接口
通過第三方的買粉絲文章聚合網站爬取
買粉絲買粉絲文章一直沒有提供一個對外的搜索功能,直到2013年買粉絲投資搜狗之后,搜狗搜索接入買粉絲買粉絲數據,從此使用搜狗搜索就可以瀏覽或查詢到相關買粉絲以及文章。
域名是: 買粉絲s://weixin.sogou.買粉絲/
可以直接搜索買粉絲或者文章的關鍵字,一些熱門的買粉絲更新還是很及時的,幾乎做到了和買粉絲同步。
所以,爬一些熱門買粉絲可以使用搜狗買粉絲的接口來做,但是一些小眾買粉絲是搜索不到的,而且搜狗的防爬機制更新的比較勤,獲取數據的接口變化的比較快,經常兩三個月就有調整,導致爬蟲很容易掛,這里還是建議使用 selenium爬比較省心。另外搜狗對每個ip也有訪問限制,訪問太頻ip會被封禁24小時,需要買個ip池來做應對。
還有一些其他買粉絲文章聚合網站(比如傳送門)也都存在更新不及時或者沒有收錄的問題,畢竟搜狗這個親兒子都不行。
<很赞哦!(23)
相关文章
- 02 江西工業貿易職業技術學院專升本對校(請問江西專升本有哪些民辦學校?)
- 01 mystic ins(大舅子前妻onlyfans叫什么 lol大舅子前妻onlyfans賬號介紹)
- 01 oppo手機怎么登錄ins教程(oppo手機注冊ins教程是?)
- 01 NBA2k20海外ID賬號密碼(nba2k20外國蘋果id號)
- 02 江西旅游貿易職業技術學校2023錄取線(江西旅游商貿職業技術學院錄取分數線)
- 01 office365訂閱后怎么安裝(win10安裝完office365怎么用)
- 02 江西工業貿易職業技術學院單招試卷2020數學(江西工業貿易職業技術學院單招試卷是語數英三科在一張試卷上嗎)
- 02 江陰公交買粉絲買粉絲(有沒有常州北站到江陰直達車?)
- 01 mystic女朋友ins賬號叫什么(金提莫onlyfans名稱)
- 01 offline playlist youtube music(今日新聞淺談:Youtube Music 也加入串流音樂服務大混戰)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款的名片
职业:程序员,设计师
现居:四川成都龙泉驿区
工作室:小组
Email:[email protected]
热门文章
站长推荐
01 my music playlist on youtube pc(好聽的英文歌(讓你心情愉悅的旋律))
02 江西啟投貿易有限公司官網(云南啟投建筑工程有限公司可靠嗎,保山有啟投么)
02 江西外語外貿職業學院英語學院在哪個校區(江西外語外貿職業學院什么專業最好)
02 江西工程學院數字貿易學院官網(請問江西專升本有哪些民辦學校?)
02 江西星飛帆貿易有限公司(最近買的太子樂400克金紙盒裝一段奶粉 生產日期 2012.11.1 批號 Ej01 寶寶一吃就咳嗽 不吃就好)
01 open youtube link in app iphone(openwrt去youtube廣告)
01 oppo怎么換成海外版系統(oppo怎么換成海外版系統)
02 江西外語外貿職業學院開學了嗎(請問十堰有哪些私立學校)