崗位職責(zé):
1. 根據(jù)業(yè)務(wù)需求,研究爬蟲策略和防屏蔽規(guī)則,設(shè)計和開發(fā)分布式爬蟲,支持高并發(fā)多平臺抓取;
2. 負責(zé)網(wǎng)頁信息抽取、簡單清洗、數(shù)據(jù)入庫等開發(fā);
3. 提升爬蟲穩(wěn)定性及可擴展性,充分利用資源,優(yōu)化爬蟲效率和質(zhì)量。
崗位要求:
1. 計算機軟件及相關(guān)專業(yè)本科畢業(yè);
2. 1年以上爬蟲項目開發(fā)經(jīng)驗,優(yōu)秀畢業(yè)生亦可;
3. 熟悉爬蟲原理及常見的反爬蟲技術(shù),如cookie、js加密、base64等;
3. 熟練運用python及多進程、多線程開發(fā);
4. 熟練使用scrapy、requests、selenium、pyppeteer等爬蟲包;
5. 熟悉html,正則、xpath等提取技術(shù);
6. 熟悉Mysql、Redis等數(shù)據(jù)庫及相關(guān)操作;
7. 熟悉Linux基礎(chǔ)命令;
8. 有Django/Flask等web框架開發(fā)經(jīng)驗者優(yōu)先。
北京 - 海淀
深圳市潤迅數(shù)智科技有限公司北京 - 海淀
首聘(北京)科技有限公司北京 - 海淀
博彥科技承德有限公司北京 - 海淀
深圳市潤迅數(shù)智科技有限公司北京 - 海淀
拓爾思信息技術(shù)股份有限公司北京 - 海淀
首聘(北京)科技有限公司