工作內(nèi)容:
1.設(shè)計(jì)和實(shí)現(xiàn)高效的網(wǎng)絡(luò)爬蟲,用于抓取結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
2.處理和解析各種數(shù)據(jù)格式,包括HTML、XML和JSON。
3.優(yōu)化爬蟲性能,確保數(shù)據(jù)抓取的效率和準(zhǔn)確性。
4.實(shí)現(xiàn)數(shù)據(jù)去重和清洗邏輯,提高數(shù)據(jù)質(zhì)量。
5.監(jiān)控爬蟲運(yùn)行狀態(tài),及時(shí)處理異常和失敗情況。
6.與團(tuán)隊(duì)合作,不斷改進(jìn)爬蟲策略和工具。
崗位要求:
1.計(jì)算機(jī)科學(xué)或相關(guān)專業(yè)。
2.必須有爬蟲開發(fā)經(jīng)驗(yàn),熟悉splash/Scrapy/Selenium優(yōu)先
3.精通Python
4.熟悉至少一種數(shù)據(jù)庫技術(shù),例如 MySQL、PostgreSQL 或 MongoDB。
5.熟悉 Linux 操作系統(tǒng)。
6.良好的溝通和團(tuán)隊(duì)合作能力。
7.工作經(jīng)驗(yàn)2年及以上
1、 大專及以上學(xué)歷計(jì)算機(jī)相關(guān)專業(yè)
2、工作經(jīng)驗(yàn)2年及以上
3、簡歷關(guān)鍵詞:Python 、 splash/Scrapy/Selenium三選一