大數(shù)據(jù)(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。大數(shù)據(jù)的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。隨著人工智能的大量應(yīng)用,大數(shù)據(jù)翻譯也應(yīng)用廣泛起來,下來海歷陽光翻譯公司簡單總結(jié)一些大數(shù)據(jù)的常用詞匯。
??一、大數(shù)據(jù)
??英文:big data,mega data
??大數(shù)據(jù),或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
??二、大數(shù)據(jù)的4V:
??Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)
??三、當(dāng)前用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈
??開源大數(shù)據(jù)生態(tài)圈:
??1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
??2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
??3、NoSQL,membase、MongoDb
??商用大數(shù)據(jù)生態(tài)圈:
??1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
??2、數(shù)據(jù)倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
??3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國內(nèi)的Yonghong Data Mart 。
??四、Hadoop
??Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
??用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。
??Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
??Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計算。
??五、Apache基金會
??Apache軟件基金會(也就是Apache Software Foundation,簡稱為ASF),是專門為支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中,所發(fā)行的軟件產(chǎn)品都遵循Apache許可證(Apache License)。
??六、MapReduce
??MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算。概念”Map(映射)”和”Reduce(歸約)”,和它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上。 當(dāng)前的軟件實現(xiàn)是指定一個Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。
??七、BI
??商業(yè)智能(BI,Business Intelligence)。
??BI(Business Intelligence)即商務(wù)智能,它是一套完整的解決方案,用來將企業(yè)中現(xiàn)有的數(shù)據(jù)進行有效的整合,快速準(zhǔn)確的提供報表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策。
??八、CRM
??CRM即客戶關(guān)系管理,是指企業(yè)用CRM技術(shù)來管理與客戶之間的關(guān)系。在不同場合下,CRM可能是一個管理學(xué)術(shù)語,可能是一個軟件系統(tǒng)。通常所指的CRM,指用計算機自動化分析銷售、市場營銷、客戶服務(wù)以及應(yīng)用等流程的軟件系統(tǒng)。它的目標(biāo)是通過提高客戶的價值、滿意度、贏利性和忠實度來縮減銷售周期和銷售成本、增加收入、尋找擴展業(yè)務(wù)所需的新的市場和渠道。CRM是選擇和管理有價值客戶及其關(guān)系的一種商業(yè)策略,CRM要求以客戶為中心的企業(yè)文化來支持有效的市場營銷、銷售與服務(wù)流程。
??九、云計算
??云計算(cloud computing)是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說法。過去在圖中往往用云來表示電信網(wǎng),后來也用來表示互聯(lián)網(wǎng)和底層基礎(chǔ)設(shè)施的抽象。因此,云計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這么強大的計算能力可以模擬核爆炸、預(yù)測氣候變化和市場發(fā)展趨勢。用戶通過電腦、筆記本、手機等方式接入數(shù)據(jù)中心,按自己的需求進行運算。
??十、云計算相關(guān)
??分布式計算(Distributed Computing)
??并行計算(Parallel Computing)
??效用計算(Utility Computing)
??網(wǎng)絡(luò)存儲(Network Storage Technologies)
??虛擬化(Virtualization)
??負載均衡(Load Balance)
??熱備份冗余(High Available)
??十一:數(shù)據(jù)倉庫
??數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫是為企業(yè)所有級別的決策制定過程提供支持的所有類型數(shù)據(jù)的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持的目的而創(chuàng)建。 為企業(yè)提供需要業(yè)務(wù)智能來指導(dǎo)業(yè)務(wù)流程改進和監(jiān)視時間、成本、質(zhì)量和控制。
??十二:非關(guān)系型數(shù)據(jù)庫
??NoSQL,泛指非關(guān)系型的數(shù)據(jù)庫。隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的關(guān)系數(shù)據(jù)庫在應(yīng)付web2.0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動態(tài)網(wǎng)站已經(jīng)顯得力不從心,暴露了很多難以克服的問題,而非關(guān)系型的數(shù)據(jù)庫則由于其本身的特點得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫的產(chǎn)生就是為了解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應(yīng)用難題。
??十三:結(jié)構(gòu)化數(shù)據(jù)
??結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、標(biāo)準(zhǔn)通用標(biāo)記語言下的子集XML、HTML、各類報表、圖像和音頻/視頻信息等等。
??十四:結(jié)構(gòu)化分析方法
??結(jié)構(gòu)化分析方法(Structured Method,結(jié)構(gòu)化方法)是強調(diào)開發(fā)方法的結(jié)構(gòu)合理性以及所開發(fā)軟件的結(jié)構(gòu)合理性的軟件開發(fā)方法。結(jié)構(gòu)是指系統(tǒng)內(nèi)各個組成要素之間的相互聯(lián)系、相互作用的框架。結(jié)構(gòu)化開發(fā)方法提出了一組提高軟件結(jié)構(gòu)合理性的準(zhǔn)則,如分解與抽象、模塊獨立性、信息隱蔽等。針對軟件生存周期各個不同的階段,它有結(jié)構(gòu)化分析(SA)和結(jié)構(gòu)化程序設(shè)計(SP)等方法。
??十五:半結(jié)構(gòu)化數(shù)據(jù)
??和普通純文本相比,半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)性,但和具有嚴(yán)格理論模型的關(guān)系數(shù)據(jù)庫的數(shù)據(jù)相比。OEM(Object exchange Model)是一種典型的半結(jié)構(gòu)化數(shù)據(jù)模型。
??半結(jié)構(gòu)化數(shù)據(jù)(semi-structured data)
??在做一個信息系統(tǒng)設(shè)計時肯定會涉及到數(shù)據(jù)的存儲,一般我們都會將系統(tǒng)信息保存在某個指定的關(guān)系數(shù)據(jù)庫中。我們會將數(shù)據(jù)按業(yè)務(wù)分類,并設(shè)計相應(yīng)的表,然后將對應(yīng)的信息保存到相應(yīng)的表中。比如我們做一個業(yè)務(wù)系統(tǒng),要保存員工基本信息:工號、姓名、性別、出生日期等等;我們就會建立一個對應(yīng)的staff表。
??但不是系統(tǒng)中所有信息都可以這樣簡單的用一個表中的字段就能對應(yīng)的。
??十六:非結(jié)構(gòu)化數(shù)據(jù)
??非結(jié)構(gòu)化數(shù)據(jù)庫是指其字段長度可變,并且每個字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫,用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號等信息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本、圖象、聲音、影視、超媒體等信息)。
??十七:數(shù)據(jù)庫(Database)
??數(shù)據(jù)庫是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫,它產(chǎn)生于距今六十多年前,隨著信息技術(shù)和市場的發(fā)展,特別是二十世紀(jì)九十年代以后,數(shù)據(jù)管理不再僅僅是存儲和管理數(shù)據(jù),而轉(zhuǎn)變成用戶所需要的各種數(shù)據(jù)管理的方式。數(shù)據(jù)庫有很多種類型,從最簡單的存儲有各種數(shù)據(jù)的表格到能夠進行海量數(shù)據(jù)存儲的大型數(shù)據(jù)庫系統(tǒng)都在各個方面得到了廣泛的應(yīng)用。
??十八:數(shù)據(jù)分析
??英文名:Data Analysis
??數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動。
??Excel作為常用的分析工具,可以實現(xiàn)基本的分析工作,在商業(yè)智能領(lǐng)域Cognos、Style Intelligence、Microstrategy、Brio、BO和Oracle以及國內(nèi)產(chǎn)品如Yonghong Z-Suite BI套件等。
??十九:數(shù)據(jù)挖掘
??數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。
??二十:數(shù)據(jù)清洗
??數(shù)據(jù)清洗從名字上也看的出就是把“臟”的“洗掉”,指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。因為數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務(wù)系統(tǒng)中抽取而來而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務(wù)是過濾那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認是否過濾掉還是由業(yè)務(wù)單位修正之后再進行抽取。不符合要求的數(shù)據(jù)主要是有不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類。數(shù)據(jù)清洗是與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。
??二十一:可視化
??可視化(Visualization)是利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。它涉及到計算機圖形學(xué)、圖像處理、計算機視覺、計算機輔助設(shè)計等多個領(lǐng)域,成為研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等一系列問題的綜合技術(shù)。目前正在飛速發(fā)展的虛擬現(xiàn)實技術(shù)也是以圖形圖像的可視化技術(shù)為依托的。
??二十二:數(shù)據(jù)可視化
??英文名:Data visualization
??數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。
??數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。但是,這并不就意味著,數(shù)據(jù)可視化就一定因為要實現(xiàn)其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端復(fù)雜。為了有效地傳達思想概念,美學(xué)形式與功能需要齊頭并進,通過直觀地傳達關(guān)鍵的方面與特征,從而實現(xiàn)對于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。然而,設(shè)計人員往往并不能很好地把握設(shè)計與功能之間的平衡,從而創(chuàng)造出華而不實的數(shù)據(jù)可視化形式,無法達到其主要目的,也就是傳達與溝通信息。
??二十三:產(chǎn)品數(shù)據(jù)管理
??產(chǎn)品數(shù)據(jù)管理(Product Data Management)是基于分布式網(wǎng)絡(luò)、主從結(jié)構(gòu)、圖形化用戶接口和數(shù)據(jù)庫件管理技術(shù)發(fā)展起來的一種軟件框架(或數(shù)據(jù)平臺),PDM對并行工程中的人員工具、設(shè)備資源、產(chǎn)品數(shù)據(jù)以及數(shù)據(jù)生成過程進行全面管理。
??二十四:DSP(需求方平臺)
??DSP(Demand-Side Platform),就是需求方平臺。這一概念起源于網(wǎng)絡(luò)廣告發(fā)達的歐美,是伴隨著互聯(lián)網(wǎng)和廣告業(yè)的飛速發(fā)展新興起的網(wǎng)絡(luò)廣告領(lǐng)域。它與Ad Exchange和RTB一起迅速崛起于美國,已在全球快速發(fā)展,2011年已經(jīng)覆蓋到了歐美、亞太以及澳洲。在世界網(wǎng)絡(luò)展示廣告領(lǐng)域,DSP方興未艾。DSP傳入中國,迅速成為熱潮,成為推動中國網(wǎng)絡(luò)展示廣告RTB市場快速發(fā)展的動力之一。
??二十五:DMP(數(shù)據(jù)管理平臺)
??DMP(Data-Management Platform)數(shù)據(jù)管理平臺,是把分散的第一、第三方數(shù)據(jù)進行整合納入統(tǒng)一的技術(shù)平臺,并對這些數(shù)據(jù)進行標(biāo)準(zhǔn)化和細分,讓用戶可以把這些細分結(jié)果推向現(xiàn)有的互動營銷環(huán)境里。
??DMP的核心元素包括:
??·數(shù)據(jù)整合及標(biāo)準(zhǔn)化能力:采用統(tǒng)一化的方式,將各方數(shù)據(jù)吸納整合。
??·數(shù)據(jù)細分管理能力:創(chuàng)建出獨一無二、有意義的客戶細分,進行有效營銷活動。
??·功能健全的數(shù)據(jù)標(biāo)簽:提供數(shù)據(jù)標(biāo)簽靈活性,便于營銷活動的使用。
??·自助式的用戶界面:基于網(wǎng)頁web界面或其他集成方案直接獲取數(shù)據(jù)工具,功能和幾種形式報表和分析。
??·相關(guān)渠道環(huán)境的連接:跟相關(guān)渠道的集成,包含網(wǎng)站端、展示廣告、電子郵件以及搜索和視頻,讓營銷者能找到、定位和提供細分群體相關(guān)高度的營銷信息。
以上就是海歷陽光翻譯公司就大數(shù)據(jù)翻譯英語常用詞匯總結(jié)之一的介紹,如果您有大數(shù)據(jù)翻譯的需求請聯(lián)系我們,海歷陽光翻譯將竭誠為您服務(wù)。