崗位職責:
1、負責外部數(shù)據(jù)采集需求,完成采集站點分析,數(shù)據(jù)采集,數(shù)據(jù)結(jié)構(gòu)化,數(shù)據(jù)質(zhì)量保障以及外部數(shù)據(jù)維護工作。數(shù)據(jù)從接入到最后業(yè)務(wù)使用都需要大量人力投入開發(fā)運維。
2、負責databee采集工具日常技術(shù)支持,問題排查、答疑,使用文檔便編寫及維護。
3、外部數(shù)據(jù)去重整合、異常數(shù)據(jù)處理/數(shù)據(jù)評測/數(shù)據(jù)訂正、NER/NED數(shù)據(jù)預(yù)處理等
崗位要求:
1、熟悉java/python有大于2年的爬蟲開發(fā)經(jīng)驗
2、熟悉webmagic等開源爬蟲框架 或 熟悉常用爬蟲框架平臺
3、能夠熟練的開發(fā)爬取日常網(wǎng)頁/APP內(nèi)容