Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Schița de curs
Fiecare sesiune este de 2 ore
Ziua 1: Sesiunea -1: Business Prezentare generală a motivului Big Data Business Inteligența în Govt.
- Studii de caz de la NIH, DoE
- Big Data rata de adaptare în Govt. Agențiile și modul în care își aliniază operațiunile viitoare în jurul Big Data Predictive Analytics
- Zona de aplicare la scară largă în DoD, NSA, IRS, USDA etc.
- Interfața Big Data cu date Legacy
- Cunoașterea de bază a tehnologiilor abilitante în analiza predictivă
- Data Integration și Vizualizare tablou de bord
- Managementul fraudei
- Business Regulă/ Generarea de detectare a fraudei
- Detectarea amenințărilor și profilarea
- Analiza cost-beneficiu pentru implementarea Big Data.
Ziua 1: Sesiunea-2: Introducere a Big Data-1
- Principalele caracteristici ale Big Data-volum, varietate, viteză și veridicitate. Arhitectură MPP pentru volum.
- Data Warehouses – schemă statică, set de date care evoluează lent
- MPP Database precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Soluții bazate – nu există condiții privind structura setului de date.
- Model tipic: HDFS, MapReduce (crunch), preluare din HDFS
- Lot - potrivit pentru analitice/non-interactive
- Volum: date în flux CEP
- Alegeri tipice – produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc.)
- Mai puțin gata de producție – Storm/S4
- NoSQL Databases – (columnar și cheie-valoare): Cel mai potrivit ca adjuvant analitic la depozitul de date/baza de date
Ziua 1: Sesiunea -3: Introducere în Big Data-2
NoSQL soluții
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Magazin KV (ierarhic) - GT.m, Cache
- Magazin KV (comandat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Magazin Tuple - Gigaspaces, Coord, Apache River
- Obiect Database - ZopeDB, DB40, Shoal
- Magazin de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietăți de date: Introducere la Data Cleaning problema în Big Data
- RDBMS – structură/schemă statică, nu promovează mediul agil, explorator.
- NoSQL – semi-structurat, suficientă structură pentru a stoca date fără schema exactă înainte de stocarea datelor
- Probleme de curățare a datelor
Ziua-1: Sesiunea-4: Big Data Introducere-3: Hadoop
- Când să selectați Hadoop?
- STRUCTURAT - Depozitele/bazele de date ale întreprinderii pot stoca date masive (cu un cost), dar impun o structură (nu este bună pentru explorarea activă)
- Date SEMI STRUCTURATE – greu de făcut cu soluțiile tradiționale (DW/DB)
- Datele de depozitare = efort URIAȘ și statice chiar și după implementare
- Pentru varietate și volum de date, bazate pe hardware-ul de bază – HADOOP
- H/W mărfurilor necesare pentru a crea un Hadoop Cluster
Introducere în Map Reduce /HDFS
- MapReduce – distribuiți calcularea pe mai multe servere
- HDFS – pune datele disponibile local pentru procesul de calcul (cu redundanță)
- Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
- Responsabilitatea dezvoltatorului de a da sens datelor
- Programming MapReduce = lucrul cu Java (pro/contra), încărcarea manuală a datelor în HDFS
Ziua 2: Sesiunea 1: Big Data Construirea ecosistemului Big Data ETL: universul Big Data Instrumente-care să folosiți și când?
- Hadoop vs. Alte NoSQL soluții
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) deasupra Hadoop
- Acces aleatoriu la date, dar restricții impuse (maxim 1 PB)
- Nu este bun pentru analize ad-hoc, bun pentru înregistrare, numărare, serii cronologice
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume – Flux de date (de exemplu, date de jurnal) în HDFS
Ziua 2: Sesiunea 2: Big Data Management Sistem
- Piese în mișcare, nodurile de calcul pornesc/eșuează :ZooKeeper - Pentru servicii de configurare/coordonare/denumire
- Conductă/flux de lucru complex: Oozie – gestionați fluxul de lucru, dependențele, lanțul în margaretă
- Implementează, configura, gestionează cluster, upgrade etc (administrator de sistem): Ambari
- În cloud: Whirr
Ziua 2: Sesiunea 3: Analiza predictivă în Business Inteligență -1: Tehnici fundamentale și BI bazat pe învățarea automată:
- Introducere în învățarea automată
- Învățarea tehnicilor de clasificare
- Fișier de antrenament de pregătire Bayesian Prediction
- Suport Vector Machine
- KNN p-Tree Algebra și minerit vertical
- Retea neurala
- Big Data problemă cu variabile mari - Pădure aleatoare (RF)
- Big Data Problemă de automatizare – Ansamblu multimodel RF
- Automatizare prin Soft10-M
- Instrument de analiză a textului - Treemer
- Agile învăţare
- Învățare bazată pe agenți
- Învățare distribuită
- Introducere în instrumente open source pentru analiză predictivă: R, Rapidminer, Mahut
Ziua-2: Sesiunea-4 Ecosistemul de analiză predictivă-2: Probleme comune de analiză predictivă în Govt.
- Insight analitic
- Analiza vizualizării
- Analitică predictivă structurată
- Analiză predictivă nestructurată
- Profilare amenințări/fraudstar/furnizor
- Motor de recomandare
- Detectarea modelelor
- Descoperirea regulilor/scenariului – eșec, fraudă, optimizare
- Descoperirea cauzei fundamentale
- Analiza sentimentelor
- CRM analitic
- Analiza rețelei
- Analiza textului
- Analiza asistată de tehnologie
- Analiza fraudelor
- Analitică în timp real
Ziua 3: Sesiunea-1: Timp real și Scalaanalitic abil peste Hadoop
- De ce eșuează algoritmii analitici obișnuiți în Hadoop/HDFS
- Apache Hama- pentru calculul distribuit sincron în bloc
- Apache SPARK- pentru calcularea cluster pentru analiză în timp real
- CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calculul distribuit
- Abordare bazată pe KNN p-Algebra de la Treeminer pentru costuri reduse de operare hardware
Ziua 3: Sesiunea 2 : Instrumente pentru eDiscovery și criminalistică
- eDiscovery peste Big Data vs. date vechi – o comparație între costuri și performanță
- Codare predictivă și revizuire asistată de tehnologie (TAR)
- Demo live a unui produs Tar (vMiner) pentru a înțelege cum funcționează TAR pentru o descoperire mai rapidă
- Indexare mai rapidă prin HDFS – viteza datelor
- NLP sau procesarea limbajului natural – diverse tehnici și produse open source
- eDiscovery în limbi străine-tehnologie pentru prelucrarea limbilor străine
Ziua 3: Sesiunea 3: Big Data BI pentru Cyber Security – Înțelegerea vederilor întregi la 360 de grade ale colectării rapide a datelor pentru identificarea amenințărilor
- Înțelegerea elementelor de bază ale analizei de securitate - suprafața de atac, configurarea greșită a securității, apărarea gazdei
- Infrastructură de rețea/ Conductă mare de date/ ETL de răspuns pentru analiză în timp real
- Prescriptiv vs predictiv – Remediu bazat pe reguli vs descoperire automată a regulilor de amenințare din metadate
Ziua 3: Sesiunea 4: Big Data în USDA: Aplicație în agricultură
- Introducere în IoT (Internet of Things) pentru agricultura bazată pe senzori Big Data și control
- Introducere în imagistica prin satelit și aplicarea acesteia în agricultură
- Integrarea senzorilor și a datelor de imagine pentru fertilitatea solului, recomandarea cultivării și prognoza
- asigurări agricole și Big Data
- Prognoza pierderii culturilor
Ziua 4: Sesiunea 1: BI pentru prevenirea fraudei de la Big Data în Govt-Analitica fraudei:
- Clasificarea de bază a analizei fraudelor - bazate pe reguli vs analize predictive
- Învățare automată supravegheată versus nesupravegheată pentru detectarea modelelor de fraudă
- Frauda de la furnizor/supra taxare pentru proiecte
- Tehnici de detectare a fraudei Medicare și Medicaid pentru procesarea cererilor
- Fraude de rambursare de călătorie
- Fraude de rambursare IRS
- Studiile de caz și demonstrațiile live vor fi oferite oriunde sunt disponibile date.
Ziua 4: Sesiunea 2: Social Media Analitic- Colectare și analiză de informații
- Big Data ETL API pentru extragerea datelor din rețelele sociale
- Text, imagine, metadate și video
- Analiza sentimentelor din feedul social media
- Filtrarea contextuală și non-contextuală a fluxului de rețele sociale
- Social Media Tabloul de bord pentru a integra diverse rețele sociale
- Profilarea automată a profilului rețelelor sociale
- Demo live a fiecărei analize va fi oferită prin Treeminer Tool.
Ziua 4: Sesiunea 3: Big Data Analitică în procesarea imaginilor și a fluxurilor video
- Tehnici de stocare a imaginilor în Big Data - Soluție de stocare pentru date care depășesc petabytes
- LTFS și LTO
- GPFS-LTFS (Soluție de stocare stratificată pentru date mari de imagine)
- Fundamentele analizei imaginii
- Recunoașterea obiectelor
- Segmentarea imaginii
- Urmărirea mișcării
- Reconstituirea imaginii 3-D
Ziua 4: Sesiunea 4: Big Data aplicații în NIH:
- Domenii emergente ale Bio-informaticii
- Meta-genomica și Big Data probleme de minerit
- Big Data Analitică predictivă pentru farmacogenomică, metabolomică și proteomică
- Big Data în procesul Genomics din aval
- Aplicarea analizei predictive de date mari în sănătatea publică
Big Data Tabloul de bord pentru acces rapid la diverse date și afișare:
- Integrarea platformei de aplicații existente cu Big Data Dashboard
- Big Data management
- Studiu de caz pentru Big Data Tabloul de bord: Tableau și Pentaho
- Utilizați aplicația Big Data pentru a împinge servicii bazate pe locație în Govt.
- Sistem de urmărire și management
Ziua 5: Sesiunea 1: Cum se justifică Big Data implementarea BI în cadrul unei organizații:
- Definirea ROI pentru implementarea Big Data.
- Studii de caz pentru economisirea timpului analistului pentru colectarea și pregătirea datelor – creșterea creșterii productivității
- Studii de caz privind câștigul de venituri din economisirea costului bazei de date licențiate
- Câștig de venituri din serviciile bazate pe locație
- Salvarea de la prevenirea fraudei
- O abordare integrată a foii de calcul pentru a calcula cca. Cheltuieli vs. Câștig/economii de venituri din implementarea Big Data.
Ziua-5: Sesiunea-2: Procedura pas cu pas pentru a înlocui sistemul de date vechi cu Big Data Sistem:
- Înțelegerea practicii Big Data Foaia de parcurs pentru migrație
- Care sunt informațiile importante necesare înainte de a proiecta o implementare Big Data.
- Care sunt diferitele moduri de a calcula volumul, viteza, varietatea și veridicitatea datelor
- Cum se estimează creșterea datelor
- Studii de caz
Ziua 5: Sesiunea 4: Revizuirea Big Data furnizorilor și revizuirea produselor lor. Sesiune Q/A:
- Accenture
- APTEAN (fost CDC Software)
- Cisco Sisteme
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Anterior 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Cuantic
- Rackspace
- Revoluție Analytics
- Salesforce
- SAP
- SAS Institutul
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Gândiți-vă la Big Analytics
- Sisteme Tidemark
- Arboritorul
- VMware (parte a EMC)
Cerințe
- Cunoștințe de bază despre funcționarea afacerilor și sistemele de date din Guvern în domeniul lor .
- Cunoștințe de bază de SQL/Oracle sau baze de date relaționale .
- Înțelegere de bază a Statistics (la nivel de foaie de calcul) .
35 ore
Mărturii (1)
Capacitatea formatorului de a alinia cursul la cerințele organizației și nu doar de a oferi cursul de dragul de a-l oferi.
Masilonyane - Revenue Services Lesotho
Curs - Big Data Business Intelligence for Govt. Agencies
Tradus de catre o masina