自動化辦公3——我用爬蟲治好了朋友的焦慮

我是智能取經人 2024-02-13 07:07:19

數據爲王的時代,數據的重要性已經不言而喻了,數據收集也已經成爲很多企業的利潤來源和競爭壁壘,對于算法工程師來說,算法的盡頭是數據標注,數據標注的盡頭是數據收集,最近一個實例分割的項目更是讓我加深了這點認識,網上一個標注好的數據集一張圖片就要1美元。很多同事開玩笑說:還敲什麽代碼啊,直接去標注數據得了。

當然了,數據收集不僅限于數據分析師、算法工程師崗位,很多運營崗位的人員也需要收集數據。前段時間一個許久沒聯系的朋友找我吐槽說最近得了焦慮症,想換工作了。他是從事藝術領域的,需要找全國各地的街舞工作室洽談合作,他的做法:就是每天到大衆點評收集各地街舞工作室的名稱、地址、電話,然後打電話或者實地到訪談合作,最頭疼的莫過于每天在大衆點評上去搜索、複制、粘貼。聽後我笑了笑,人去幹機器的事兒,哪能不難受嗎?我用幾行代碼輕松治好了他的“病”。

首先到大衆點評選擇城市和關鍵詞點擊搜索後複制鏈接得到【我這裏是杭州街舞的url】後面加上p是爲了翻頁用,當然這個過程是可以自動化的,但是大衆點評的城市信息加密過了,我沒有時間研究解碼,網上現有的解碼方式也都過時了。

BASE_URL = "https://www.dianping.com/search/keyword/8/0_%E8%A1%97%E8%88%9E/p"

然後,就是爬取頁面信息的代碼了,這裏的請求頭中的cookie信息要換成自己的

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'Cookie':'_lxsdk_cuid=17f540a0d49c8-0a36f3f6ab440f-978183a-144000-17f540a0d49c8; _lxsdk=17f540a0d49c8-0a36f3f6ab440f-978183a-144000-17f540a0d49c8; _hc.v=f24f226e-2247-f10c-55fb-e09cba145754.1655347958; Hm_lvt_602b80cf8079ae6591966cc70a3940e7=1655347959; s_ViewType=10; WEBDFPID=0ux516uv9u5v5735y2z6v23zu68464648183z266yw0979584897u068-1655434746217-1655348344154IKQSGWOfd79fef3d01d5e9aadc18ccd4d0c95077713; dper=8baf569b6bb6de39144553d1ec95cd2df854f1d84afcd0d78fd465b78bdd494c0c36882ee18f61d90791b25325267ee4be3b8008c90a4a2f4eaf6bc2018285e1; fspop=test; ll=7fd06e815b796be3df069dec7836c3df; cy=3; cye=hangzhou; Hm_lpvt_602b80cf8079ae6591966cc70a3940e7=1655350213; _lxsdk_s=1816a6d508c-4fc-513-306%7C%7C171'}pattern_page = 'title=.*? target.*? href="(.*?)" >\n <h4>(.*?)</h4>' #'title=.*? target=.*? href=(.*?) >\n <h4>(.*?)</h4>'pattern_page = re.compile(pattern_page)region_pattern = '<span itemprop="locality region">(.*?)</span></a>'region_pattern = re.compile(region_pattern)address_pattern = '<span>結果:

接著爬取詳情頁的信息

shop_detail_infos = []location_pattern = '<span>

0 阅读:0

我是智能取經人

簡介:感謝大家的關注