工作職責(zé):
1.配置火車頭采集任務(wù),從互聯(lián)網(wǎng)采集數(shù)據(jù)并入庫,涉及數(shù)據(jù)種類包含但不限于新聞/論壇/博客等。
2.維護(hù)火車頭采集腳本,保證站點架構(gòu)變動后數(shù)據(jù)的正常采集。
3.搜集站點以及評測站點的可采集性,依據(jù)客戶及產(chǎn)品需求。
4.設(shè)計采集源數(shù)據(jù)庫(MySQL/Oracle),對數(shù)據(jù)清洗關(guān)聯(lián)及簡單分析,包含建表/存儲過程/觸發(fā)器/事件等。
5.日常監(jiān)測數(shù)據(jù)采集相應(yīng)服務(wù)的正常運行。
6.編碼采集網(wǎng)站內(nèi)容。
任職要求:
1.熟練使用火車頭采集器。
2.熟悉html標(biāo)簽。
3.熟悉javascript相關(guān)內(nèi)容。
4.熟練使用json數(shù)據(jù)解析以及提取。
5.熟練使用xpath,正則表達(dá)式等提取內(nèi)容。
6.熟悉http協(xié)議。
7.熟練使用mysql或者oracle數(shù)據(jù)庫。
8.至少會java或者python其中一門語言。
9.了解數(shù)據(jù)采集原理以及代理等。