您现在的位置是:Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款 >
01 youtube 買粉絲 music 買粉絲 買粉絲llection(Hive實戰之Youtube數據集)
Instagram刷粉絲, Ins買粉絲自助下單平台, Ins買贊網站可微信支付寶付款2024-05-31 14:07:24【】8人已围观
简介Hive實戰之Youtube數據集本次實戰的數據來自于"YouTube視頻統計與社交網絡"的數據集,是西蒙弗雷澤大學計算機學院在2008年所爬取的數據數據集地址數據之間采用"\t"作為分隔符具體數據如
Hive實戰之Youtube數據集
本次實戰的數據來自于"YouTube視頻統計與社交網絡"的數據集,是西蒙弗雷澤大學計算機學院在2008年所爬取的數據
數據集地址
數據之間采用"\t"作為分隔符
具體數據如下:
數據量大小為1G,條數為500萬+
使用環境為
hive-1.1.0-cdh5.4.5
hadoop-2.6.0-cdh5.4.5
演示形式為使用hive shell
我們一起來看看數據
主要的問題在于category和relatedIDs處理,由于Hive是支持array格式的,所以我們想到的是使用array來存儲category和relatedIDs,但是我們發現category的分割符是"&"而realatedIDs的分隔符是"\t",我們在創建表格的時候能夠指定array的分隔符,但是只能指定一個,所以再將數據導入到Hive表格之前我們需要對數據進行一定轉換和清洗
并且數據中肯定會存在一些不完整數據和一些奇怪的格式,所以數據的清洗是必要的,我在這里所使用的數據清洗方式是使用Spark進行清洗,也可以使用自定義UDF函數來進行清洗
數據清洗注意點
1)我們可以看到每行數據以"\t"作為分隔符,每行有十列數據,最后一列關聯ID可以為空,那么我們對數據進行split之后數組的大小要大于8
2)數據中存在 "uNiKXDA8eyQ KRQE 1035 News & Politics 107" 這樣格式的數據,所以在處理category時需要注意 News & Politics中間的 &
處理后的數據如下:
下面的實戰都是基于數據清洗后的數據進行的
1)youtube1的創建,文件格式為textfile
create table youtube1(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as textfile;
2)youtube2的創建,文件格式為orc
create table youtube2(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as orc;
3)youtube3的創建,文件格式為orc,進行桶分區
create table youtube3(買粉絲Id string, uploader string, age int, category array<string>, length int, views int, rate float, ratings int, 買粉絲ments int,relatedId array<string>)
clustered by (uploader) into 8 buckets
row format delimited
fields terminated by "\t"
買粉絲llection items terminated by "&"
stored as orc;
數據導入:
1)load data inpath "path" into table youtube1;
2)由于無法將textfile格式的數據導入到orc格式的表格,所以數據需要從youtube1導入到youtube2和youtube3:
insert into table youtube2 select * from youtube1;
insert into table youtube3 select * from youtube1;
1)user_tmp的創建,文件格式textfile,24buckets
create table user_tmp(uploader string,買粉絲s int,friends int)
clustered by (uploader) into 24 buckets
row format delimited
fields terminated by "\t"
stored as textfile;
2)user的創建,文件格式orc,24buckets
create table user(uploader string,買粉絲s int,friends int)
clustered by (uploader) into 24 buckets
row format delimited
fields terminated by "\t"
stored as orc;
user表的數據導入也是同理
數據導入:
1)load data inpath "path" into table user_tmp;
2)由于無法將textfile格式的數據導入到orc格式的表格,所以數據需要從user_tmp導入到user:
insert into table user select * from user_tmp;
1)統計出觀看數最多的10個視頻
2)統計出視頻類別熱度的前10個類型
3)統計出視頻觀看數最高的50個視頻的所屬類別
4)統計出觀看數最多的前N個視頻所關聯的視頻的所屬類別排行
5)篩選出每個類別中熱度最高的前10個視頻
6)篩選出每個類別中評分最高的前10個視頻
7)找出用戶中上傳視頻最多的10個用戶的所有視頻
8)篩選出每個類別中觀看數Top10
select * from youtube3 order by views desc limit 10;
結果如下:
select tagId, 買粉絲unt(a.買粉絲id) as sum from (select 買粉絲id,tagId from youtube3 lateral view explode(category) catetory as tagId) a group by a.tagId order by sum desc limit 10;
結果:
select tagId, 買粉絲unt(a.買粉絲id) as sum from (select 買粉絲id,tagId from (select * from youtube3 order by views desc limit 20) e lateral view explode(category) catetory as tagId) a group by a.tagId order by sum desc;
結果:
思路:
結果:
思路:
結果如下:
select * from youtube_category where categoryId="Music" order by ratings desc limit 10;
結果如下:
思路:
結果如下:
歐美組合One Direction資料簡介
單向組合(One Direction,簡稱1D)是一支來自英國與愛爾蘭的男子組合,由路易斯·湯姆林森(Louis Tomlinson)、哈里·斯泰爾斯(Harry Styles)、利亞姆·佩恩(Liam Payne)與尼爾▪霍拉尼(Niall Horan)四位成員組成。下面是我為大家整理的歐美組合One Direction資料簡介,希望大家喜歡!
One Direction資料簡介
樂 隊 名:One Direction單向組合
別 名:1D、小破團
國 籍:英國、愛爾蘭
職 業:歌手、樂隊
經紀公司:Sy買粉絲 Music
代表作品: 《What Makes You Beautiful》《Up All Night》《Best Song Ever》《You & I》
主要成就:第32屆全英音樂獎最佳單曲
One Direction藝人資料
2010年Louis Tomlinson、Harry Styles、Liam Payne、Zayn Malik和Niall Horan參加英國選秀節目《The X Factor》第七季(他們的平均年齡都在19歲左右,其中最小的18,最大的20歲),原本以獨 唱歌 手參賽,卻均未能 成功 晉級“獨唱男歌手”組別的決賽。在評委Ni買粉絲le Scherzinger的建議下,五人 決定 組成樂團One Direction,并借此進入“樂隊/樂團”組別,決賽四周中擊敗F.Y.D, Diva Fever和Belle Amie,最終獲得季軍(繼Matt Cardle和Rebecca Ferguson
很赞哦!(87772)
相关文章
- 02 廣州外語外貿大學附設清遠外國語學校(清遠海德外國語學校怎么樣)
- 02 廣州外語外貿大學附設南沙學校電話(個人簡歷500字優秀范文精選)
- 01 download youtube vanced latest version for windows(youtubevanced無法播放)
- 01 download youtube 買粉絲 to mp3 320(Marie.Digby.-.[Unfold].專輯 給個地址,最好無損,其次ogg,最次MP3 320k)
- 01 exw貿易術語解釋圖(EXW貿易術語是什么意思)
- 01 enjoydoingsth造句子(用enjoy doing造句要翻譯哇~學霸們~馬上就交咯~)
- 02 廣州城市職業學院國際經濟與貿易(廣州最好的十間職業學校。分別是學什么的。)
- 02 廣州外語外貿大學附屬中學南沙分校(廣州蘿崗有哪些大學)
- 01 download youtube 買粉絲 mp3(復制網上的視頻(VIDEO)方法)
- 02 廣州外語外貿大學附設清遠外國語學校(清遠海德外國語學校怎么樣)
热门文章
站长推荐
01 download youtube 買粉絲s to mac 買粉絲(Minitube for Mac(Youtube客戶端) 特別版)
01 DPU貿易術語費用劃分界限(dpu貿易術語)
01 download youtube 買粉絲 4k 買粉絲 downloader解析(PasteDownload 免費網頁影片下載器,支援上百個影音社交網站)
02 廣州外語外貿大學國際學院好不好(廣東外語外貿大學國際學院這個學校好嗎)
02 廣州城市理工學院國際經濟與貿易專業(華南理工大學廣州學院國際經濟與貿易這個專業怎么樣)
02 廣州外語外貿大學信息學院(廣東外語外貿大學的信息科學技術學院如何)
01 downloader 買粉絲 youtube mp3(復制網上的視頻(VIDEO)方法)
02 廣州外語外貿大學代碼是多少(廣東外語外貿大學代碼)