1.本科及以上學(xué)歷,3年以上爬?抓取采集相關(guān)?作經(jīng)驗
2.精通主流爬取技術(shù)及爬?框架?具,如Selenium/Puppeteer/Scrapy/PhantomJS等;
3.熟悉Python/Java/Go/C++其中?種語?,具備扎實的編碼能?;
4.精通動態(tài)網(wǎng)頁抓取、瀏覽器模擬抓取、APP抓取等技術(shù),熟練使用Charles,F(xiàn)iddler或其他抓包工具;
5、具備web挖掘等搜索引擎相關(guān)知識,有豐富的網(wǎng)絡(luò)爬蟲、網(wǎng)頁去重、網(wǎng)頁信息抽取的經(jīng)驗,
6、掌握網(wǎng)頁抓取原理及技術(shù),包括基于Cookie的登錄管理,基于headless的采集,熟悉正則表達式、XPath、Jsoup等網(wǎng)頁信息抽取技術(shù)。
6.掌握基礎(chǔ)的js逆向知識,熟悉ast,能夠獨立完成經(jīng)ob,vmp混淆后的加密邏輯;熟悉js逆向,混淆原理,js語法樹,客戶端常用簽名算法等。