<table id="l47ri"></table>
      <acronym id="l47ri"><label id="l47ri"><menu id="l47ri"></menu></label></acronym>
      <dd id="l47ri"><ins id="l47ri"><noscript id="l47ri"></noscript></ins></dd>
    1. <big id="l47ri"><span id="l47ri"></span></big>

        語料工具

        Corpus Tools
        ABBYY FineReader

        ABBYY FineReader

        ABBYY FineReader是一款OCR軟件,可以進行文件識別、自動保留排版格式,后臺批處理識別等功能。用戶可以利用ABBYY FineReader進行對不可編輯文本的掃描,如圖像、PDF等格式的語料,以獲取Microsoft Word等格式的可編輯的文檔。
        天若OCR文字識別

        天若OCR文字識別

        天若OCR文字識別是一款界面簡潔、功能強大的OCR識別軟件,可將圖片中的文本轉換成可編輯文本,將表格識別后轉換成可編輯表格,進行識別翻譯、截圖及截圖標注等,處理圖像或PDF等格式語料極為方便。
        AntConc

        AntConc

        AntConc是一款免費的單語語料檢索工具,支持Windows, MacOS等系統,具有索引、索引定位、詞叢、搭配、詞表和關鍵詞單等多種功能,界面簡單,方便用戶操作,可以極大提高語料檢索的效率。
        TextForever

        TextForever

        TextForever可以用來進行文本HTML到TXT的轉換、文件切分、文檔合并、文本提取、TXT文件分行、HTML代碼整理等功能。在使用Teleport Ultra軟件提取網頁中的語料后,我們可以使用TextForever軟件對所獲取的語料進行格式處理,搜集所需格式的語料,兩個軟件的搭配使用使得語料搜集過程更加方便快捷。
        Microsoft Word

        Microsoft Word

        微軟Word是微軟公司開發的一款文字處理軟件。相信大家日常辦公都會或多或少用到它,其實它還有許多隱藏技能,今天為大家介紹其中之一——語料清洗。

        具體來說,利用Ctrl+H快捷鍵調出查找與替換對話框,點擊“更多”,單擊勾選“通配符”,借助通配符快速清洗語料。

        EmEditor

        EmEditor

        EmEditor是一個輕量級、可擴展、易于使用的Windows文本編輯器,適用于Windows系統。EmEditor在64位和32位版本中都可用。我們可以在EmEditor軟件中利用正則表達式快速清洗語料,具體操作是導入文本后,點擊“搜索”,單擊“替換”,再勾選“正則表達式”,利用正則表達式清洗語料。

        正則表達式學習參考:

        https://www.runoob.com/regexp/regexp-tutorial.html

        在線正則表達式測試平臺:

        https://tool.oschina.net/regex

        Notepad++

        Notepad++

        Notepad++是一款與EmEditor類似的軟件,Notepad++是Windows操作系統下的一套免費的文本編輯器,有完整的中文化接口及支持多國語言編寫的功能(UTF8技術)。同樣,我們也可以借助它,并利用正則表達式清洗語料,操作與EmEditor類似。
        斑斕科技小助手

        斑斕科技小助手

        斑斕科技小助手是一款基于VBA的Word小工具,與庫酷和文檔整理器不同的是,它可以直接在Word中使用,功能豐富,提供各種快捷鍵,操作簡單方便,為語料處理提供極大的幫助。
        ABBYY Aligner

        ABBYY Aligner

        ABBYY Aligner 2.0是一個工具對齊并行文本和創建翻譯記憶數據庫,提供了編輯對齊結果的功能,并可以保存為TMX格式,以便在CAT工具中進一步使用,可以提高工作效率。
        Tmxmall

        Tmxmall

        Tmxmall是一款在線語料對齊工具,語料對齊方便用戶調整對齊結果,其自主研發的智能對齊算法可以自動對齊原文,支持46種語言,2070種語言對,極大提高語料對齊效率。
        ParaConc

        ParaConc

        ParaConc是一款雙語或多語平行語料庫建設與檢索工具,具有語料對齊、平行文本預覽功能、平行文本檢索、檢索行排序、詞頻統計、搭配提取等功能,可以用于語料檢索、對比分析、語言學習和翻譯研究培訓等。
        久久精品欧美一区二区三区不卡,国产精品v欧美精品v日韩苍井空,国产又色又爽又刺激在线观看,免费国产自产一区二区三区四区
          <table id="l47ri"></table>
            <acronym id="l47ri"><label id="l47ri"><menu id="l47ri"></menu></label></acronym>
            <dd id="l47ri"><ins id="l47ri"><noscript id="l47ri"></noscript></ins></dd>
          1. <big id="l47ri"><span id="l47ri"></span></big>