亚洲一区二区三区视频|中文字幕欧美日韩久久|亚洲综合色自拍一区首页|人与动人物a级毛片中文|久久亚洲韩国中文字幕综合|九九精品免费黄色视频观看|亚洲欧美日韩国产综合在线|99久久久无码国产精品免费下载

  • <button id="ikkoe"></button>
  • <rt id="ikkoe"></rt>
  • <dl id="ikkoe"><wbr id="ikkoe"></wbr></dl>
  • <rt id="ikkoe"><pre id="ikkoe"></pre></rt>
  • <noscript id="ikkoe"><wbr id="ikkoe"></wbr></noscript>
    首頁 首頁 資訊 綜合 查看內(nèi)容

    A股迎來中報(bào)季,合合信息文檔解析技術(shù)輔助大模型深度解讀財(cái)報(bào)

    2024-8-30 16:52| 發(fā)布者: CEO在線| 查看: 635| 評(píng)論: 0|來自: 互聯(lián)網(wǎng)

    摘要:   財(cái)務(wù)報(bào)告是公眾和投資者了解企業(yè)經(jīng)營狀況的主要信源之一。步入8月中下旬,上市公司進(jìn)入了中報(bào)披露高峰期。據(jù)東方財(cái)富Choice數(shù)據(jù)統(tǒng)計(jì),截至8月中旬,A股有超過1700只個(gè)股公布了2024年半年度業(yè)績預(yù)告,海量的財(cái)報(bào) ...

      財(cái)務(wù)報(bào)告是公眾和投資者了解企業(yè)經(jīng)營狀況的主要信源之一。步入8月中下旬,上市公司進(jìn)入了中報(bào)披露高峰期。據(jù)東方財(cái)富Choice數(shù)據(jù)統(tǒng)計(jì),截至8月中旬,A股有超過1700只個(gè)股公布了2024年半年度業(yè)績預(yù)告,海量的財(cái)報(bào)文件的解讀對(duì)于金融行業(yè)從業(yè)者而言,產(chǎn)生了巨大的工作量。

      隨著人工智能技術(shù)的深入發(fā)展,部分企業(yè)和個(gè)人開始嘗試用大模型進(jìn)行財(cái)務(wù)報(bào)表分析。針對(duì)大模型“理解力”薄弱,數(shù)據(jù)讀取錯(cuò)誤等問題,合合信息大模型“加速器”方案優(yōu)化升級(jí)了PDF文檔解析技術(shù),將非結(jié)構(gòu)化的PDF內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),提高大模型圖表類數(shù)據(jù)提取準(zhǔn)確性和版面理解能力,助力大模型實(shí)現(xiàn)從“泛讀”到“精讀”的能力跨越。

      PDF是主流的電子文件格式之一。文檔解析技術(shù)可將PDF、圖片等多種格式的文件解析為 Markdown 或 JSON 格式的文檔,并以一種對(duì)大模型友好的方式呈現(xiàn)。

      文檔解析技術(shù)是大模型理解和處理文檔的前提,相關(guān)能力的缺失,會(huì)導(dǎo)致大模型在理解版面不同區(qū)域的內(nèi)容排列順序、要點(diǎn)時(shí)遇到障礙,影響大模型的“理解力”,財(cái)務(wù)報(bào)表中的關(guān)鍵信息可能會(huì)丟失或被誤解,使得模型生成的答案不夠精準(zhǔn),無法正確回答用戶的查詢。

      “人類閱讀文章時(shí)可以自然地判斷版面元素的作用,但機(jī)器要經(jīng)歷層層拆解的過程才能‘讀懂’文章!睋(jù)合合信息技術(shù)團(tuán)隊(duì)成員介紹,財(cái)報(bào)、年報(bào)文件多以PDF格式為主,其中包含著各類復(fù)雜表格、圖表、證照等元素。大模型現(xiàn)階段存在的文檔解析能力缺陷主要體現(xiàn)如下方面:文檔識(shí)別失敗率高,面對(duì)復(fù)雜版面,無法正確解析,獲取標(biāo)題、分塊文本、圖表等。在這種情況下,大模型常表現(xiàn)為細(xì)節(jié)信息提供答案失敗或回答錯(cuò)誤;邏輯結(jié)構(gòu)解析不完整也是核心問題之一,段落語義劃分錯(cuò)誤,會(huì)導(dǎo)致大模型回答不全面或出現(xiàn)總結(jié)性偏差的狀況。

      圖1:合合信息PDF文檔解析技術(shù)在大模型表格解析中的效果

      據(jù)了解,合合信息PDF文檔解析技術(shù)具備多文檔元素識(shí)別、版面分析能力,可以識(shí)別文檔中的段落、公式、頁眉、頁腳等多種元素,并進(jìn)行對(duì)應(yīng)的處理。在應(yīng)對(duì)財(cái)報(bào)中常見的無線表、合并單元格、不規(guī)則行距、跨段、跨頁等障礙時(shí),該技術(shù)也能做到準(zhǔn)確還原各類表格結(jié)構(gòu)。

      為了讓大模型像專業(yè)人士一樣閱讀文本,PDF文檔解析技術(shù)可對(duì)各類學(xué)術(shù)文獻(xiàn)進(jìn)行版面元素的識(shí)別及閱讀順序的判定。該技術(shù)不僅能夠準(zhǔn)確定位文檔中的關(guān)鍵信息段落,還能根據(jù)PDF文檔的布局和格式,推斷出人類閱讀時(shí)的順序,而非機(jī)械地判定為從左至右排序,避免把完整的段落文字“攔腰斬?cái)唷保嬲龅搅恕八娂此谩薄?br>

      圖2:合合信息PDF文檔解析技術(shù)對(duì)雙欄論文的解析效果

      合合信息技術(shù)團(tuán)隊(duì)成員表示,上市公司年報(bào)頁數(shù)大多集中在200至300頁的范圍內(nèi),一個(gè)熟練的分析師可能在幾天到一周的時(shí)間內(nèi)完成對(duì)年報(bào)的基本分析,PDF文檔解析工具最快能在1.5秒完成百頁文檔的解析,按8小時(shí)為一天工作時(shí)間計(jì)算,解析工具可幫助大模型在一日內(nèi)對(duì)數(shù)千家企業(yè)的年報(bào)數(shù)據(jù)進(jìn)行精準(zhǔn)分析。隨著無紙化辦公、數(shù)字化趨勢發(fā)展,PDF文檔解析技術(shù)有望被應(yīng)用于更廣泛的場景。

    分享至:
    | 收藏

    公司 & 人物

    ADAYO華陽與地平線達(dá)成戰(zhàn)略合作 助力智能網(wǎng)聯(lián)汽車發(fā)展
    ADAYO華陽與地平線達(dá)成戰(zhàn)略合
      4月19日,2021上海國際汽車工業(yè)展覽會(huì)在國家會(huì)展中心(上海)如期舉行,ADAYO華陽攜
    重磅!小浣熊被評(píng)為“福建省抗擊新冠肺炎疫情先進(jìn)民營企業(yè)”
    重磅!小浣熊被評(píng)為“福建省抗
      近日,福建省工商業(yè)聯(lián)合會(huì)、福建省光彩事業(yè)促進(jìn)會(huì)下發(fā)《福建省工商業(yè)聯(lián)合會(huì)關(guān)于對(duì)
    熱烈慶祝 | 青李人力青島分公司隆重開業(yè)
    熱烈慶祝 | 青李人力青島分公
      2021年3月6日,文藝復(fù)興集團(tuán)旗下——青李人力青島子公司隆重開業(yè)。青李人力總部位
    全程管家更省心!業(yè)之峰“2021全年第一簽”來了
    全程管家更省心!業(yè)之峰“2021
      裝修工程環(huán)節(jié)多、工期長,讓人疲于奔命,一不小心還容易掉入各種消費(fèi)“陷阱”。
    开平市| 平度市| 丹凤县| 玉山县| 沧州市| 大连市| 疏勒县| 山丹县| 寿阳县| 禹城市| 邯郸市| 台安县| 达拉特旗| 茌平县| 闵行区| 泾源县| 武强县| 嘉兴市| 安新县| 湾仔区| 平阳县| 独山县| 卢湾区| 九龙城区| 化隆| 保德县| 濮阳市| 博罗县| 宁南县| 曲麻莱县| 龙海市| 古交市| 贵州省| 安仁县| 新营市| 金华市| 扎鲁特旗| 黔西| 纳雍县| 湘潭县| 三河市|