自動化辦公3——我用爬蟲治好了朋友的焦慮

數據爲王的時代，數據的重要性已經不言而喻了，數據收集也已經成爲很多企業的利潤來源和競爭壁壘，對于算法工程師來說，算法的盡頭是數據標注，數據標注的盡頭是數據收集，最近一個實例分割的項目更是讓我加深了這點認識，網上一個標注好的數據集一張圖片就要1美元。很多同事開玩笑說：還敲什麽代碼啊，直接去標注數據得了。

當然了，數據收集不僅限于數據分析師、算法工程師崗位，很多運營崗位的人員也需要收集數據。前段時間一個許久沒聯系的朋友找我吐槽說最近得了焦慮症，想換工作了。他是從事藝術領域的，需要找全國各地的街舞工作室洽談合作，他的做法：就是每天到大衆點評收集各地街舞工作室的名稱、地址、電話，然後打電話或者實地到訪談合作，最頭疼的莫過于每天在大衆點評上去搜索、複制、粘貼。聽後我笑了笑，人去幹機器的事兒，哪能不難受嗎？我用幾行代碼輕松治好了他的“病”。

首先到大衆點評選擇城市和關鍵詞點擊搜索後複制鏈接得到【我這裏是杭州街舞的url】後面加上p是爲了翻頁用，當然這個過程是可以自動化的，但是大衆點評的城市信息加密過了，我沒有時間研究解碼，網上現有的解碼方式也都過時了。

BASE_URL = "https://www.dianping.com/search/keyword/8/0_%E8%A1%97%E8%88%9E/p"

然後，就是爬取頁面信息的代碼了，這裏的請求頭中的cookie信息要換成自己的

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'Cookie':'_lxsdk_cuid=17f540a0d49c8-0a36f3f6ab440f-978183a-144000-17f540a0d49c8; _lxsdk=17f540a0d49c8-0a36f3f6ab440f-978183a-144000-17f540a0d49c8; _hc.v=f24f226e-2247-f10c-55fb-e09cba145754.1655347958; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1655347959; s_ViewType=10; WEBDFPID=0ux516uv9u5v5735y2z6v23zu68464648183z266yw0979584897u068-1655434746217-1655348344154IKQSGWOfd79fef3d01d5e9aadc18ccd4d0c95077713; dper=8baf569b6bb6de39144553d1ec95cd2df854f1d84afcd0d78fd465b78bdd494c0c36882ee18f61d90791b25325267ee4be3b8008c90a4a2f4eaf6bc2018285e1; fspop=test; ll=7fd06e815b796be3df069dec7836c3df; cy=3; cye=hangzhou; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1655350213; _lxsdk_s=1816a6d508c-4fc-513-306%7C%7C171'}pattern_page = 'title=.*? target.*? href="(.*?)" >\n <h4>(.*?)</h4>' #'title=.*? target=.*? href=(.*?) >\n <h4>(.*?)</h4>'pattern_page = re.compile(pattern_page)region_pattern = '<span itemprop="locality region">(.*?)</span></a>'region_pattern = re.compile(region_pattern)address_pattern = '<span>結果：

接著爬取詳情頁的信息

shop_detail_infos = []location_pattern = '<span>

娛樂新聞吧

自動化辦公3——我用爬蟲治好了朋友的焦慮

我是智能取經人