崗位職責(zé):
1、負(fù)責(zé)全球公開(kāi)新聞資訊站點(diǎn)、論壇、社交等公開(kāi)數(shù)據(jù)的智能化采集與獲取,應(yīng)對(duì)大規(guī)模文本、圖像、視頻數(shù)據(jù)的采集、抽取,去重、分類(lèi),垃圾過(guò)濾,質(zhì)量識(shí)別、解析入庫(kù)等工作;
2、負(fù)責(zé)各種開(kāi)源網(wǎng)絡(luò)數(shù)據(jù)的基本挖掘分析,參與數(shù)據(jù)服務(wù)產(chǎn)品研發(fā);
3、負(fù)責(zé)爬蟲(chóng)技術(shù)與反爬技術(shù)研究,快速響應(yīng)業(yè)務(wù)需求。
任職要求:
1、具有3年以上實(shí)際網(wǎng)絡(luò)爬蟲(chóng)或分布式數(shù)據(jù)采集開(kāi)發(fā)工作經(jīng)驗(yàn);
2、精通熟悉爬蟲(chóng)原理及優(yōu)化技術(shù),熟悉主流爬蟲(chóng)框架使用;熟悉常見(jiàn)的反爬機(jī)制及應(yīng)對(duì)策略,包括但不限于使用代理IP,驗(yàn)證碼智能識(shí)別,動(dòng)態(tài)JS數(shù)據(jù)解析等;
3、熟悉各類(lèi)應(yīng)用網(wǎng)絡(luò)協(xié)議知識(shí),基本網(wǎng)絡(luò)協(xié)議分析,熟悉基于Phantomjs、Headless、Selenium等無(wú)界面瀏覽器自動(dòng)化交互采集技術(shù);
4、對(duì)數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計(jì)有較為深刻的理解;
5、具有較強(qiáng)的編程能力,具備良好的編程習(xí)慣,能夠編寫(xiě)高質(zhì)量技術(shù)文檔;
6、具有構(gòu)建分布式爬蟲(chóng)系統(tǒng)的經(jīng)驗(yàn),具有海量高并發(fā)網(wǎng)頁(yè)爬取項(xiàng)目經(jīng)驗(yàn)優(yōu)先;
7、具備信息檢索、Web挖掘等搜索引擎相關(guān)知識(shí),有從事網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)去重、網(wǎng)頁(yè)信息抽取、網(wǎng)頁(yè)分類(lèi)的中任一種程序開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先;
8、對(duì)自然語(yǔ)言處理技術(shù)熟悉者優(yōu)先;具備機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘經(jīng)驗(yàn)或深度學(xué)習(xí)基礎(chǔ)經(jīng)驗(yàn)者優(yōu)先。
上海 - 黃浦
上海市弘安律師事務(wù)所上海 - 浦東
上海坤策文化傳播有限公司上海 - 浦東
上海張江數(shù)學(xué)研究院上海 - 浦東
首聘(北京)科技有限公司上海 - 黃浦
北京小確信安全防范科技有限公司上海 - 浦東
上海飛旗網(wǎng)絡(luò)技術(shù)股份有限公司