一、崗位職責(zé)
1、基于內(nèi)部采集框架,熟悉采集架構(gòu),熟悉開源數(shù)據(jù)采集程序方法策略,設(shè)計(jì)采集策略和防屏蔽規(guī)則,提升開源數(shù)據(jù)采集效率和質(zhì)量,能夠進(jìn)行論壇、網(wǎng)站等平臺(tái)信息的抓取和分析
2、深入了解采集平臺(tái)數(shù)據(jù)獲取邏輯,完成數(shù)據(jù)采集、解析處理、數(shù)據(jù)入庫(kù)等數(shù)據(jù)日常工作,完成數(shù)據(jù)采集規(guī)則編寫和維護(hù)
3、把握開源數(shù)據(jù)采集核心技術(shù)研究方向,研究?jī)?yōu)化平臺(tái),提升采集程序的穩(wěn)定性、可擴(kuò)展性,支撐相關(guān)單位的數(shù)據(jù)需求
二、任職要求
1、具備良好的計(jì)算機(jī)專業(yè)只是,有開源數(shù)據(jù)采集項(xiàng)目經(jīng)驗(yàn)
2、熟悉開源數(shù)據(jù)采集原理,負(fù)責(zé)或參與過日采集數(shù)據(jù)量過十萬規(guī)模的采集系統(tǒng)
3、熟悉scrapy、webmagic、spider-flow等開源數(shù)據(jù)采集框架
4、有較強(qiáng)的逆襲和解決問題能力,具備良好的溝通和團(tuán)隊(duì)寫作能力
5、特別優(yōu)秀人才,學(xué)歷可放寬至本科。
三、加分項(xiàng)
1、熟悉go語言,能夠使用golang開發(fā)應(yīng)用