● 具有NLP和CV兩個領(lǐng)域的模型經(jīng)驗(yàn),包括CNN,RNN,圖模型,GAN網(wǎng)絡(luò),多模態(tài)信息抽取模型等;
● 基于Paddle OCR 進(jìn)" />
● 從需求分析,技術(shù)調(diào)研,數(shù)據(jù)清洗,標(biāo)簽定義,到模型設(shè)計(jì)與實(shí)現(xiàn),結(jié)果后處理,全棧開發(fā);
● 具有NLP和CV兩個領(lǐng)域的模型經(jīng)驗(yàn),包括CNN,RNN,圖模型,GAN網(wǎng)絡(luò),多模態(tài)信息抽取模型等;
● 基于Paddle OCR 進(jìn)行定制場景的識別精度優(yōu)化;
● 具有金融、物流、司法等垂直領(lǐng)域的模型落地經(jīng)驗(yàn),及模型落地的能力。
相關(guān)標(biāo)簽:深度學(xué)習(xí);python;pytorch;ubuntu;scrapy
1、文檔提取項(xiàng)目
從金融文檔中抽取指定的目標(biāo)實(shí)體,涉及數(shù)據(jù)準(zhǔn)備,模型開發(fā)及訓(xùn)練,后處理,返回格式化的輸出結(jié)果。
2、單據(jù)提取項(xiàng)目
使用多模態(tài)技術(shù),結(jié)合文本和位置信息,提取關(guān)鍵信息,最終進(jìn)行格式化輸出
從健康碼中提取關(guān)鍵字段,流程包括: 1. OCR識別 2.基于規(guī)則的信息提取 3.基于多模態(tài)的信息提取 4.后處理格式化輸出
合同提取為從合同文檔中提取關(guān)鍵信息,整體流程如下: 1.輸入為合同文檔 2.通過OCR形成純文本信息 3.使用實(shí)體抽取模型提取關(guān)鍵字段 4.后處理進(jìn)行格式化輸出