1、負責分布式網絡爬蟲系統(tǒng)平臺的架構設計與開發(fā)(如抓取調度,多樣化抓取,頁面解析和結構化抽取,海量數據存儲和讀取等)、技術選型;
2、研究爬蟲策略和防屏蔽規(guī)則,解決封賬號、封IP、驗證碼、頁面跳轉等難點攻克,提升網頁抓取的效率和質量;
3、利用主流的大數據相關技術,對抓取后的網頁數據進行清洗、存儲等;并持續(xù)優(yōu)化平臺,以便滿足各種爬取業(yè)務需求;
4、把握網絡爬蟲核心技術研究方向,研究優(yōu)化算法,提升爬蟲系統(tǒng)的穩(wěn)定性、可擴展性;
職位要求:
1、熟悉scrapy框架,分布式系統(tǒng),python爬蟲。
2、熟悉http協(xié)議,kafka,linux基本命令,金融基礎知識。
3、熟悉javascript .熟悉css.xpath.正則提取,mysql增刪改差,sql優(yōu)化,js逆向,redis,mongodb。
4、精通爬蟲和反爬技術,精通http底層協(xié)議;精通深度抓取、動態(tài)網頁技術抓取、瀏覽器模擬抓取、APP抓取等技術;
5、有很強的學習能力和技術鉆研能力,積極主動,思維靈活開放,有良好的溝通能力,善于跨團隊合作。
職位福利:定期體檢、員工旅游、節(jié)日福利、帶薪年假、五險一金、彈性工作、定期團建