बिग डेटा, क्लाउड एवं एज कंप्यूटिंग

सार्वजनिक अनुभाग पूर्वावलोकन

4.1 Big Data

Big Data उन डेटासेट को संदर्भित करता है जो पारंपरिक डेटा प्रसंस्करण सॉफ्टवेयर के लिए बहुत बड़े और जटिल हैं। 5 Vs द्वारा विशेषता:

V	विवरण	उदाहरण
Volume	विशाल पैमाना (टेराबाइट → एक्साबाइट)	Facebook: 4 पेटाबाइट डेटा/दिन
Velocity	डेटा उत्पादन और प्रसंस्करण की गति	Twitter: 50 करोड़ ट्वीट/दिन
Variety	एकाधिक प्रारूप (पाठ, छवियाँ, वीडियो, सेंसर डेटा)	Healthcare: EHR + इमेजिंग + जीनोमिक्स
Veracity	डेटा की सटीकता और विश्वसनीयता	सोशल मीडिया शोर, नकली समीक्षाएँ
Value	निकाली गई व्यावसायिक/सामाजिक अंतर्दृष्टि	धोखाधड़ी पहचान, व्यक्तिगत चिकित्सा

Big Data तकनीकें:

Hadoop (2006): Open-source वितरित भंडारण और प्रसंस्करण ढाँचा (HDFS + MapReduce); हजारों सर्वर पर समानांतर प्रसंस्करण सक्षम
Apache Spark: तेज़, in-memory डेटा प्रसंस्करण — Hadoop MapReduce से 100 गुना तेज़; रियल-टाइम स्ट्रीमिंग का समर्थन
NoSQL Databases: गैर-संबंधात्मक; असंरचित डेटा संभालते हैं — MongoDB (document store), Cassandra (column store), Redis (key-value), Neo4j (graph database)

अनुप्रयोग:

Healthcare: EHR डेटा + जीनोमिक्स + इमेजिंग का विश्लेषण → precision medicine (IBM Watson Health)
Finance: लाखों दैनिक लेनदेन में धोखाधड़ी पहचान
Government: UIDAI big data बुनियादी ढाँचे का उपयोग करके प्रतिदिन 5 करोड़+ Aadhaar सत्यापन प्रसंस्करण
Agriculture: उपग्रह इमेजरी + मौसम डेटा + मिट्टी सेंसर का विश्लेषण → precision farming

4.2 Cloud Computing

Cloud computing Internet पर कंप्यूटिंग संसाधन (सर्वर, भंडारण, डेटाबेस, नेटवर्किंग, सॉफ्टवेयर, analytics) on-demand उपलब्धता, स्केलेबिलिटी, और pay-per-use मूल्य निर्धारण के साथ प्रदान करता है।

Deployment मॉडल:

मॉडल	विवरण	उदाहरण
Public cloud	तृतीय-पक्ष provider द्वारा स्वामित्व/प्रबंधित संसाधन	AWS, Microsoft Azure, Google Cloud
Private cloud	एकल संगठन के लिए समर्पित cloud	NIC Cloud (भारत का सरकारी cloud — MeghRaj)
Hybrid cloud	public और private का संयोजन	अधिकांश बड़े उद्यम
Multi-cloud	एकाधिक cloud providers का उपयोग	AWS + Azure + GCP एक साथ उपयोग

सेवा मॉडल:

मॉडल	ग्राहक नियंत्रण	Provider नियंत्रण	उदाहरण
IaaS (Infrastructure)	OS, middleware, डेटा, applications	हार्डवेयर, virtualisation, नेटवर्क	AWS EC2, Azure VMs, Google Compute Engine
PaaS (Platform)	डेटा, applications	OS, runtime, middleware, हार्डवेयर	Google App Engine, Heroku, Azure App Service
SaaS (Software)	केवल उपयोगकर्ता डेटा (कॉन्फ़िगरेशन)	सब कुछ	Gmail, Salesforce, Office 365, Zoom

भारत का GovCloud — MeghRaj

NIC (National Informatics Centre) के अंतर्गत भारत का राष्ट्रीय Cloud; 2014 में शुभारंभ
सरकारी applications होस्ट: GSTN (GST portal), Aadhaar सिस्टम, सरकारी ई-मेल
DigiSakshee — cloud-आधारित चुनाव प्रबंधन बुनियादी ढाँचा

4.3 Edge Computing

Edge computing सभी डेटा को केंद्रीय cloud data centre भेजने के बजाय स्रोत के पास (नेटवर्क के किनारे) डेटा प्रसंस्करण करता है।

Edge computing की आवश्यकता क्यों?

Latency: Cloud round-trip = 50–200 ms; edge = <5 ms — स्वायत्त वाहन, औद्योगिक रोबोट, AR/VR, रिमोट सर्जरी के लिए महत्वपूर्ण
Bandwidth: केवल प्रासंगिक/प्रसंस्कृत डेटा cloud को भेजा जाता है, लागत कम होती है
Privacy: संवेदनशील डेटा (रोगी स्वास्थ्य, कारखाना) स्थानीय रूप से प्रसंस्करण, cloud को नहीं भेजा

Edge बनाम Fog बनाम Cloud:

Cloud: केंद्रीकृत, शक्तिशाली, उच्च latency
Fog: edge और cloud के बीच मध्यवर्ती नोड (Cisco की अवधारणा)
Edge: डिवाइस या स्थानीय सर्वर स्तर पर प्रसंस्करण