后端開發(fā)工程師( ID: TPG-數(shù)據(jù)與知識平臺部-010),5個HC
工作內(nèi)容:
1.設(shè)計和實現(xiàn)高效的網(wǎng)絡(luò)爬蟲,用于抓取結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
2.處理和解析各種數(shù)據(jù)格式,包括HTML、XML和JSON。
3.優(yōu)化爬蟲性能,確保數(shù)據(jù)抓取的效率和準(zhǔn)確性。
4.實現(xiàn)數(shù)據(jù)去重和清洗邏輯,提高數(shù)據(jù)質(zhì)量。
5.監(jiān)控爬蟲運行狀態(tài),及時處理異常和失敗情況。
6.與團隊合作,不斷改進(jìn)爬蟲策略和工具。
崗位要求:
1.計算機科學(xué)或相關(guān)專業(yè)的學(xué)士學(xué)位。
2.必須有爬蟲開發(fā)經(jīng)驗,熟悉splash/Scrapy/Selenium優(yōu)先
3.精通Python
4.熟悉至少一種數(shù)據(jù)庫技術(shù),例如 MySQL、PostgreSQL 或 MongoDB。
5.熟悉 Linux 操作系統(tǒng)。
6.良好的溝通和團隊合作能力。
7.工作經(jīng)驗2年及以上