崗位職責(zé):
1、負(fù)責(zé)設(shè)計(jì)和開發(fā)分布式爬蟲和調(diào)度系統(tǒng),爬蟲核心算法和調(diào)度策略優(yōu)化;
2、負(fù)責(zé)部分網(wǎng)站驗(yàn)證碼破解和現(xiàn)有爬蟲系統(tǒng)效率的提升;
3、負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)抓取規(guī)劃和數(shù)據(jù)鏈路規(guī)劃、高效且穩(wěn)定爬取指定網(wǎng)站的數(shù)據(jù);
4、構(gòu)建高可用性、高可擴(kuò)展性的網(wǎng)絡(luò)信息搜集平臺(tái);
5、優(yōu)化現(xiàn)有數(shù)據(jù)清洗,數(shù)據(jù)提取,結(jié)構(gòu)化,入庫等過程;
6、深度思考并參與業(yè)務(wù)等數(shù)據(jù)瓶頸,并有效解決;
7、項(xiàng)目中遇到其他問題。
任職要求
1、計(jì)算機(jī)相關(guān)專業(yè),python語言,三年以上爬蟲經(jīng)驗(yàn);
2、有獨(dú)立負(fù)責(zé)過爬蟲平臺(tái)搭建、爬蟲系統(tǒng)處理經(jīng)驗(yàn),爬蟲項(xiàng)目規(guī)劃能力;;
3、熟悉Scrapy、Pyspider、nutch、webmagic等主流爬蟲框架使用,了解js引擎技術(shù)等優(yōu)先考慮;
4、熟悉js逆向,混淆原理,js語法樹,客戶端常用簽名算法等。
5、具備web挖掘等搜索引擎相關(guān)知識(shí),有豐富的網(wǎng)絡(luò)爬蟲、網(wǎng)頁去重、網(wǎng)頁信息抽取的經(jīng)驗(yàn),
6、掌握網(wǎng)頁抓取原理及技術(shù),包括基于Cookie的登錄管理,基于headless的采集,熟悉正則表達(dá)式、XPath、Jsoup等網(wǎng)頁信息抽取技術(shù)。
7、熟悉Linux平臺(tái)開發(fā)、常用操作及命令,良好的編碼習(xí)慣,有獨(dú)立思考的能力,善于解決問題。
8、具備較強(qiáng)的團(tuán)隊(duì)協(xié)作精神,工作責(zé)任心強(qiáng),良好的溝通、理解和執(zhí)行能力。