Schița de curs

Ziua 01

Prezentare generală a Big Data Business Intelligence pentru analiza informațiilor criminale

  • Studii de caz din domeniul aplicării legii - Poliția predictivă
  • Rata de adopție a Big Data în agențiile de aplicare a legii și modul în care acestea își aliniază viitoarele operațiuni în jurul Big Data Predictive Analytics
  • Soluții tehnologice emergente, cum ar fi senzorii de focuri de armă, supravegherea video și social media
  • Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea cu informații
  • Interfața Big Data cu datele anterioare
  • Înțelegerea de bază a tehnologiilor generice în analiza predictivă
  • Data Integration și vizualizarea tablourilor de bord
  • Gestionarea fraudelor
  • Business Rules și detectarea fraudelor
  • Detectarea și profilarea amenințărilor
  • Analiza cost-beneficiu pentru implementarea Big Data

Introducere în Big Data

  • Principalele caracteristici ale Big Data -- Volum, Varietate, Viteză și Veridicitate.
  • Arhitectura MPP (Massively Parallel Processing)
  • Data Warehouses - schemă statică, set de date cu evoluție lentă
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluții bazate pe Hadoop - nicio condiție privind structura setului de date.
  • Model tipic : HDFS, MapReduce (crunch), preluare din HDFS
  • Apache Spark pentru procesarea fluxurilor
  • Batch- potrivite pentru prelucrarea analitică/non-interactivă
  • Volum : Flux de date CEP
  • Alegeri tipice - produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc.)
  • Mai puțin pregătite pentru producție - Storm/S4
  • NoSQL Databases - (columnare și cheie-valoare): Mai potrivite ca adjuvant analitic pentru depozitul de date/bază de date

NoSQL soluții

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Magazin KV (ierarhic) - GT.m, Cache
  • Magazin KV (ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Obiect Database - ZopeDB, DB40, Shoal
  • Stocarea documentelor - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Magazin columnar larg - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietăți de date: Introducere la Data Cleaning probleme în Big Data

  • RDBMS - structură/schemă statică, nu promovează mediul agile, exploratoriu.
  • NoSQL - semi-structurate, structură suficientă pentru a stoca date fără o schemă exactă înainte de stocarea datelor
  • Probleme de curățare a datelor

Hadoop

  • Când să selectați Hadoop?
  • STRUCTURAT - depozitele de date/bazele de date ale întreprinderilor pot stoca date masive (cu un cost), dar impun structura (nu sunt bune pentru explorarea activă)
  • SEMI STRUCTURED date - dificil de realizat utilizând soluții tradiționale (DW/DB)
  • Înmagazinarea datelor = efort ENORM și static chiar și după implementare
  • Pentru varietatea și volumul de date, calculat pe hardware de bază - HADOOP
  • H/W de bază necesar pentru a crea un cluster Hadoop

Introducere în Map Reduce /HDFS

  • MapReduce - distribuie calculul pe mai multe servere
  • HDFS - face datele disponibile local pentru procesul de calcul (cu redundanță)
  • Datele - pot fi nestructurate/schema-less (spre deosebire de RDBMS)
  • Responsabilitatea dezvoltatorului de a da sens datelor
  • Programming MapReduce = lucrul cu Java (argumente pro/contra), încărcarea manuală a datelor în HDFS

Ziua 02

Big Data Ecosistem -- Construirea Big Data ETL (Extract, Transform, Load) -- Ce Big Data instrumente să utilizați și când?

  • Hadoop vs. Alte NoSQL soluții
  • Pentru accesul interactiv și aleatoriu la date
  • Hbase (bază de date orientată pe coloane) peste Hadoop
  • Acces aleatoriu la date, dar restricții impuse (maximum 1 PB)
  • Nu este bun pentru analize ad-hoc, este bun pentru logare, numărare, serii cronologice
  • Sqoop - Import din baze de date către Hive sau HDFS (acces JDBC/ODBC)
  • Flume - Flux de date (de exemplu, date de jurnal) în HDFS

Big Data Management Sistem

  • Părți în mișcare, noduri de calcul pornesc/pleacă :ZooKeeper - Pentru servicii de configurare/coordonare/denumire
  • Conductă/flux de lucru complex: Oozie - gestionează fluxul de lucru, dependențele, lanțul de margarete
  • Implementare, configurare, gestionarea clusterului, actualizare etc. (administrator de sistem) :Ambari
  • În cloud : Whirr

Predictive Analytics -- Tehnici fundamentale și Machine Learning bazate pe Business Inteligență

  • Introducere în Machine Learning
  • Învățarea tehnicilor de clasificare
  • Predicția bayesiană -- pregătirea unui fișier de antrenament
  • Mașină vectorială suport
  • KNN p-Tree Algebră și minerit vertical
  • Neural Networks
  • Big Data Problema variabilelor mari -- Random forest (RF)
  • Big Data Problema automatizării - RF cu ansamblu de mai multe modele
  • Automatizare prin Soft10-M
  • Instrument de analiză a textului-Treeminer
  • Agile învățare
  • Învățare bazată pe agenți
  • Învățare distribuită
  • Introducere în instrumentele open source pentru analiza predictivă : R, Python, Rapidminer, Mahut

Predictive Analytics Ecosistemul și aplicarea acestuia în analiza criminalității

  • Tehnologia și procesul de investigare
  • Analiză de înțelegere
  • Analitica de vizualizare
  • Analiză predictivă structurată
  • Analiză predictivă nestructurată
  • Profilarea amenințărilor/fraudelor/vânzătorilor
  • Motor de recomandare
  • Detectarea tiparelor
  • Descoperirea de reguli/scenarii - eșec, fraudă, optimizare
  • Descoperirea cauzelor profunde
  • Analiza sentimentelor
  • Analiză CRM
  • Analiza rețelelor
  • Analiză de text pentru obținerea de informații din transcrieri, declarații ale martorilor, discuții pe internet etc.
  • Revizuire asistată de tehnologie
  • Analiza fraudelor
  • Analiză în timp real

Ziua 03

Analiza în timp real și Scalable peste Hadoop

  • De ce eșuează algoritmii analitici comuni în Hadoop/HDFS
  • Apache Hama- pentru calcul distribuit sincron în masă
  • Apache SPARK- pentru calcul în grup și analiză în timp real
  • CMU Graphics Lab2- abordare asincronă bazată pe grafice pentru calculul distribuit
  • KNN p -- abordare bazată pe algebră de la Treeminer pentru reducerea costurilor de operare hardware

Instrumente pentru eDiscovery și criminalistică

  • eDiscovery pe Big Data vs. date moștenite - o comparație a costurilor și performanțelor
  • Codarea predictivă și revizuirea asistată de tehnologie (TAR)
  • Demonstrație live a vMiner pentru înțelegerea modului în care TAR permite o descoperire mai rapidă
  • Indexare mai rapidă prin HDFS - Viteza datelor
  • NLP (procesarea limbajului natural) - produse și tehnici open source
  • eDiscovery în limbi străine - tehnologie pentru prelucrarea în limbi străine

Big Data BI pentru Cyber Security – Obținerea unei vizualizări la 360 de grade, colectarea rapidă a datelor și identificarea amenințărilor

  • Înțelegerea elementelor de bază ale analizelor de securitate -- suprafața de atac, configurația greșită de securitate, apărarea gazdelor
  • Infrastructura de rețea / Datapipe mare / Răspuns ETL pentru analiza în timp real
  • Prescriptiv vs predictiv - bazat pe reguli fixe vs descoperirea automată a regulilor de amenințare din meta-date

Colectarea de date disparate pentru analiza de informații penale

  • Utilizarea IoT (Internet of Things) ca senzori pentru captarea datelor
  • Utilizarea imaginilor din satelit pentru supravegherea națională
  • Utilizarea datelor de supraveghere și a imaginilor pentru identificarea infractorilor
  • Alte tehnologii de colectare a datelor -- drone, camere corporale, sisteme de etichetare GPS și tehnologie de termoviziune
  • Combinarea recuperării automate a datelor cu datele obținute din informatori, interogatorii și cercetări
  • Forecasting activitatea infracțională

Ziua 04

Prevenirea fraudelor BI din Big Data în analiza fraudelor

  • Clasificarea de bază a Fraud Analytics -- analiză bazată pe reguli vs analiză predictivă
  • Învățare automată supervizată vs nesupervizată pentru detectarea modelelor de fraudă
  • Business la frauda în afaceri, frauda în cererile medicale, frauda în asigurări, evaziunea fiscală și spălarea banilor

Social Media Analytics -- Colectarea și analiza informațiilor

  • Modul în care Social Media este utilizat de infractori pentru a organiza, recruta și planifica
  • Big Data API ETL pentru extragerea datelor din social media
  • Text, imagine, metadate și video
  • Analiza sentimentelor din fluxul de social media
  • Filtrarea contextuală și non-contextuală a fluxului social media
  • Social Media Tablou de bord pentru integrarea diverselor medii sociale
  • Profilarea automată a profilului social media
  • O demonstrație live a fiecărui instrument analitic va fi oferită prin intermediul Treeminer Tool

Big Data Analize în procesarea imaginilor și a fluxurilor video

  • Tehnici de stocare a imaginilor în Big Data -- Soluție de stocare pentru date care depășesc petabytes
  • LTFS (Linear Tape File System) și LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- soluție de stocare stratificată pentru date mari de imagine
  • Elemente de bază ale analizei imaginilor
  • Recunoașterea obiectelor
  • Segmentarea imaginilor
  • Urmărirea mișcării
  • Reconstrucția imaginilor 3-D

Biometrice, ADN și programe de identificare de generație următoare

  • Dincolo de amprentarea digitală și recunoașterea facială
  • Recunoașterea vorbirii, tastarea (analizarea modelului de tastare al unui utilizator) și CODIS (combined DNA Index System)
  • Dincolo de potrivirea ADN: utilizarea fenotipării ADN judiciare pentru a construi o față din probe ADN

Big Data Tabloul de bord pentru acces rapid la diverse date și afișare:

  • Integrarea platformei de aplicații existente cu Big Data Tablou de bord
  • Big Data management
  • Studiu de caz al tabloului de bord Big Data: Tableau și Pentaho
  • Utilizarea aplicației Big Data pentru a împinge servicii bazate pe locație în Govt.
  • Sistem de urmărire și gestionare

Ziua 05

Cum să justificați implementarea Big Data BI în cadrul unei organizații:

  • Definirea ROI (Return on Investment) pentru implementarea Big Data
  • Studii de caz pentru economisirea timpului analiștilor în colectarea și pregătirea datelor - creșterea productivității
  • Câștig de venituri din scăderea costurilor de licențiere a bazelor de date
  • Obținerea de venituri din serviciile bazate pe localizare
  • Economii de costuri din prevenirea fraudei
  • O abordare integrată bazată pe o foaie de calcul pentru calcularea cheltuielilor aproximative în raport cu câștigul/economiile de venituri din implementarea Big Data.

Procedura pas cu pas pentru înlocuirea unui sistem de date vechi cu un sistem Big Data.

  • Foaie de parcurs pentru migrare Big Data
  • Ce informații critice sunt necesare înainte de arhitecturarea unui sistem Big Data?
  • Care sunt diferitele modalități de calculare a volumului, vitezei, varietății și veridicității datelor
  • Cum se estimează creșterea datelor
  • Studii de caz

Revizuirea Big Data vânzătorilor și revizuirea produselor lor.

  • Accenture
  • APTEAN (anterior CDC Software)
  • Cisco Sisteme
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anterior 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revoluția analitică
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte a EMC)

Sesiune Q/A

Cerințe

  • Cunoașterea proceselor de aplicare a legii și a sistemelor de date
  • Cunoștințe de bază despre SQL/Oracle sau baze de date relaționale
  • Înțelegerea de bază a statisticii (la nivel de foaie de calcul)

Audiență

  • Specialiști în aplicarea legii cu pregătire tehnică
 35 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Upcoming Courses

Categorii înrudite