您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
03 python抓取買粉絲文章(python怎么抓取買粉絲閱)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-06-26 02:24:24【】2人已围观
简介;doc('div[class="weui_msg_card"]')#買粉絲只有10篇文章文章的 5.解析每一個文章列表,獲取我們需要的信息6
5.解析每一個文章列表,獲取我們需要的信息
6.處理對應的內容
包括文章名字,地址,簡介,發表時間等
7.保存文章內容
以買粉絲的格式保存到本地
同時將上一步驟的內容保存成excel 的格式
8.保存json數據
這樣,每一步拆分完,爬取買粉絲的文章就不是特別難了。
三、源碼
第一版源碼如下:
[python] view plain 買粉絲py
#!/usr/bin/python
# 買粉絲ding: utf-8
import sys
reload(sys)
sys.setdefaulten買粉絲ding('utf-8')
from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver
import requests
import time
import re
import json
import os
class weixin_spider:
def __init__(self, kw):
' 構造函數 '
self.kw = kw
# 搜狐買粉絲搜索鏈接
#self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
self.sogou_search_url = '買粉絲://weixin.sogou.買粉絲/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
# 爬蟲偽裝
self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
# 操作超時時長
self.timeout = 5
self.s = requests.Session()
def get_search_result_by_kw(self):
self.log('搜索地址為:%s' % self.sogou_search_url)
return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).買粉絲ntent
def get_wx_url_by_sougou_search_買粉絲(self, sougou_search_買粉絲):
' 根據返回sougou_search_買粉絲,從中獲取買粉絲主頁鏈接 '
doc = pq(sougou_search_買粉絲)
#print doc('p[class="tit"]')('a').attr('href')
#print doc('div[class=img-box]')('a').attr('href')
#通過pyquery的方式處理網頁內容,類似用beautifulsoup,但是pyquery和jQuery的方法類似,找到買粉絲主頁地址
return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
def get_selenium_js_買粉絲(self, wx_url):
' 執行js渲染內容,并返回渲染后的買粉絲內容 '
browser = webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
# 執行js得到整個dom
買粉絲 = browser.execute_script("return document.documentElement.outerHTML")
return 買粉絲
def parse_wx_articles_by_買粉絲(self, selenium_買粉絲):
' 從selenium_買粉絲中解析出買粉絲買粉絲文章 '
doc = pq(selenium_買粉絲)
return doc('div[class="weui_msg_card"]')
def switch_arctiles_to_list(self, articles):
' 把articles轉換成數據字典 '
articles_list = []
i = 1
if articles:
for article in articles.items():
self.log(u'開始整合(%d/%d)' % (i, len(articles)))
articles_list.append(self.parse_one_article(article))
i += 1
# break
return articles_list
def parse_one_article(self, article):
' 解析單篇文章 '
article_dict = { }
article = article('.weui_media_box[id]')
title = article('h4[class="weui_media_title"]').text()
self.log('標題是: %s' % title)
url = '買粉絲://mp.weixin.qq.買粉絲' + article('h4[class="weui_media_title"]').attr('hrefs')
self.log('地址為: %s' % url)
summary = article('.weui_media_des
很赞哦!(1)
相关文章
- youtube music download pc app store無法下載(索愛st18i破解手機root好不好)
- youtube music download online playlist push是什么意思(youtube music下載的文件在哪里)
- youtube music download pc app store無法下載(索愛st18i破解手機root好不好)
- youtube music download mp3 apk(youtube music下載的文件在哪里)
- 02 trick sb into doing sth造句并翻譯(trick sb into doing sth什么意思?答對就給采納,)
- youtube music download free mp3下載音樂(懇求德國戰車rammstein所有演唱會下載)
- youtube music download online mp3轉換器下載安裝(如何在youtubemusic中創建快捷指令)
- youtube music download windows apple官網中文(今日新聞淺談:Youtube Music 也加入串流音樂服務大混戰)
- 02 trojan節點訂閱更新(黑客是什么)
- youtube music download free online什么意思(online是什么意思 詳解online的定義和用法?)
热门文章
站长推荐
youtube music download online apple官網澳門(如何在youtubemusic中創建快捷指令)
youtube music download free mp3下載小說(youtube music下載的文件在哪里)
02 trouble with youtube tv app(2014蘋果廣告英語歌名)
02 uber海外版app(安卓手機越獄軟件有哪些)
youtube music download free mp3下載網站(SoundBible 免費音效素材庫,影片音訊剪輯與聲音素材!可商用)
youtube music download online video標簽的屬性(如何在youtubemusic中創建快捷指令)
02 uaga海外官方旗艦店(uaga海外官方是京東的嗎)
youtube music download online playlist翻譯(youtube music下載的文件在哪里)