職位描述:
1、根據(jù)公司的的業(yè)務(wù)需求,進(jìn)行爬蟲系統(tǒng)的設(shè)計(jì)、開發(fā)、優(yōu)化、維護(hù)與應(yīng)用;
2、負(fù)責(zé)爬蟲算法的策略優(yōu)化研究,提升爬蟲抓取效率和質(zhì)量;
3、負(fù)責(zé)數(shù)據(jù)采集與大數(shù)據(jù)分析工作,包括但不限于抓取數(shù)據(jù)的清洗、轉(zhuǎn)換、分析、驗(yàn)證等;
4、負(fù)責(zé)抓取策略算法的更新維護(hù),以及確保數(shù)據(jù)抽取準(zhǔn)確、高效;
5、對(duì)已爬取的數(shù)據(jù)定期進(jìn)行巡檢工作,保證各渠道源爬取穩(wěn)定;
6、負(fù)責(zé)爬蟲相關(guān)技術(shù)的研究和實(shí)現(xiàn)工作、比如分布式爬蟲、驗(yàn)證碼破解、封禁與反封禁研究、反爬機(jī)制的研究等;
7、上級(jí)交辦的其他工作任務(wù);
任職要求:
1、本科以上、計(jì)算機(jī)、軟件工程或相關(guān)專業(yè);
2、2年及以上互聯(lián)網(wǎng)或軟件行業(yè)工作經(jīng)驗(yàn),1年以上爬蟲工作和內(nèi)容提取工作經(jīng)驗(yàn);
3、熟練掌握Python語(yǔ)言,能夠基于Python獨(dú)立完成功能設(shè)計(jì)以及編碼工作;熟悉python爬蟲及反爬原理和逆向分析,熟悉至少一種開源爬蟲框架(如Scrapy、Pyspider、RPA等);
4、熟悉mysal,mongodb等常規(guī)數(shù)據(jù)庫(kù)的使用 ;
5、掌握TCP/IP協(xié)議的抓包與分析方法,熟悉主流網(wǎng)絡(luò)協(xié)議,能夠熟練進(jìn)行協(xié)議數(shù)據(jù)包分析;
6、熟練掌握Linux平臺(tái)開發(fā),能獨(dú)立安裝、配置、搭建開發(fā)環(huán)境,編寫shell腳本;
7、有較強(qiáng)學(xué)習(xí)與領(lǐng)悟能力,樂(lè)于鉆研新技術(shù),善于獨(dú)立分析并解決問(wèn)題,如反爬應(yīng)對(duì)、爬蟲策略、防屏蔽規(guī)則、驗(yàn)證碼識(shí)別技術(shù)等,能獨(dú)立解決實(shí)際開發(fā)過(guò)程碰到的各類問(wèn)題。