他說:作為產(chǎn)品經(jīng)理,不懂技術和代碼也一樣可以數(shù)據(jù)抓?。╳eb篇)

0 評論 18098 瀏覽 119 收藏 6 分鐘

上一篇文章聊完不懂技術的情況下,怎么通過app抓包獲取用戶數(shù)據(jù)。今天分享一下上次抓web數(shù)據(jù)的經(jīng)歷。

文章主要提供一些解決問題的思維方法。這篇文章可能很啰嗦,先把思路寫出來:

  1. 利用Xenu檢索全站URL地址
  2. 用Excel篩選出有用的URL
  3. 網(wǎng)頁爬取工具,爬取頁面中指定的內容信息
  4. Excel信息整理
  5. 尋找競品的典型用戶
  • 目的:調研競品主播基本情況。我想知道他們的主播粉絲數(shù)量分布、用戶關注數(shù)量分布、用戶送禮額度。
  • 背景:一個不懂技術的產(chǎn)品經(jīng)理。

1.數(shù)據(jù)爬取

需要的數(shù)據(jù)都在競品用戶個人空間,所以第一個想到的是讓開發(fā)用 Python 寫個爬蟲。跟開發(fā)確認了一下時間,說要三天,果斷放棄,自己來。

先找了個網(wǎng)頁信息爬取工具(百度一搜一大把),我用的是火車采集器。它可以對指定的URL中的頁面內容進行抓取。抓取的規(guī)則是通過H5標簽識別,所以輸入需要抓取字段的起止標簽就可以了。

我想了解的是主播收入、大R的送禮金額、還有個人空間的地址。

大R的送禮記錄個人空間就有。不過主播個人總收益是沒有展示的,所以我只能假定主播的粉絲越高,他的收益越多。

所以我最終抓取的是三個字段是:粉絲量、送禮總額、個人空間地址。

在爬取工具上設置好抓取字段,測試了幾個頁面,數(shù)據(jù)可用。然后麻煩的問題來了,沒辦法知道觸手更多個人空間地址。

2.獲取URL

個人空間的 URL 是這樣的“//chushou.tv/u/用戶ID.htm”。觀察了一下,用戶ID是不規(guī)則的,從6位到9位都有。如果直接從一個一個 URL 循環(huán)過去,抓到999999999不現(xiàn)實。

最后選擇了Xenu,這是一個檢查網(wǎng)站死鏈的工具,據(jù)說會模擬百度蜘蛛爬取網(wǎng)站URL,檢測是否為死鏈。最重要的是會把檢查結果顯示出來,這樣我可以拿到競品域名下所有的URL,再通過Excel篩選出我需要的個人空間URL。

避免URL爬取不完整,連續(xù)抓了3個晚上。再放到Excel中去重。Xenu在運行時比較消耗內存,早上來的時候都會發(fā)現(xiàn)軟件已經(jīng)崩潰,所以我三天累計抓到了近100w個URL,實際可用的只有7w個。

這樣我拿到了競品的7w個用戶個人空間地址,不過這個數(shù)字跟他們PR出去的數(shù)字相差甚遠。(嚴格來說,由于不確定這些數(shù)據(jù)的來源,所以即便得出結論也是不可信的。)

3.數(shù)據(jù)整理

拿到這些數(shù)據(jù)就有了排行榜。我可以按照粉絲量最高的來排,尋找大主播;也可以按照送禮金額(平臺的虛擬貨幣)來排,尋找土豪粉。

尋找用戶進行訪談:

利用百度的站內搜索site:在競品網(wǎng)站中搜索用戶聯(lián)系方式。比如QQ site:www.chushou.tv?或?主播 Q site:www.chushou.tv等。

這樣我能找到好多在個人簽名或公告中留有 QQ 的用戶。然后加了好友,開始聊天。

后記

這些文字是在半年前寫的,時隔半年,還是覺得這個過程很有趣,不斷提出問題,解決問題。

實際上還有很多問題,沒啥可以實操的東西,比如:網(wǎng)站有反爬蟲;被封 IP ;頁面中都是各種 JS 導致無法順利完成抓取,等等。看個熱鬧就好了。 ^_^

相關閱讀:

他說:作為產(chǎn)品經(jīng)理,不懂技術和代碼也一樣可以數(shù)據(jù)抓取(App篇)

 

作者:王也,上海,產(chǎn)品經(jīng)理,個人公眾號:野生產(chǎn)品經(jīng)理。

本文由 @王也 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!