सार्वजनिक अनुभाग पूर्वावलोकन
बिग डेटा, क्लाउड एवं एज कंप्यूटिंग
4.1 Big Data
Big Data उन डेटासेट को संदर्भित करता है जो पारंपरिक डेटा प्रसंस्करण सॉफ्टवेयर के लिए बहुत बड़े और जटिल हैं। 5 Vs द्वारा विशेषता:
| V | विवरण | उदाहरण |
|---|---|---|
| Volume | विशाल पैमाना (टेराबाइट → एक्साबाइट) | Facebook: 4 पेटाबाइट डेटा/दिन |
| Velocity | डेटा उत्पादन और प्रसंस्करण की गति | Twitter: 50 करोड़ ट्वीट/दिन |
| Variety | एकाधिक प्रारूप (पाठ, छवियाँ, वीडियो, सेंसर डेटा) | Healthcare: EHR + इमेजिंग + जीनोमिक्स |
| Veracity | डेटा की सटीकता और विश्वसनीयता | सोशल मीडिया शोर, नकली समीक्षाएँ |
| Value | निकाली गई व्यावसायिक/सामाजिक अंतर्दृष्टि | धोखाधड़ी पहचान, व्यक्तिगत चिकित्सा |
Big Data तकनीकें:
- Hadoop (2006): Open-source वितरित भंडारण और प्रसंस्करण ढाँचा (HDFS + MapReduce); हजारों सर्वर पर समानांतर प्रसंस्करण सक्षम
- Apache Spark: तेज़, in-memory डेटा प्रसंस्करण — Hadoop MapReduce से 100 गुना तेज़; रियल-टाइम स्ट्रीमिंग का समर्थन
- NoSQL Databases: गैर-संबंधात्मक; असंरचित डेटा संभालते हैं — MongoDB (document store), Cassandra (column store), Redis (key-value), Neo4j (graph database)
अनुप्रयोग:
- Healthcare: EHR डेटा + जीनोमिक्स + इमेजिंग का विश्लेषण → precision medicine (IBM Watson Health)
- Finance: लाखों दैनिक लेनदेन में धोखाधड़ी पहचान
- Government: UIDAI big data बुनियादी ढाँचे का उपयोग करके प्रतिदिन 5 करोड़+ Aadhaar सत्यापन प्रसंस्करण
- Agriculture: उपग्रह इमेजरी + मौसम डेटा + मिट्टी सेंसर का विश्लेषण → precision farming
4.2 Cloud Computing
Cloud computing Internet पर कंप्यूटिंग संसाधन (सर्वर, भंडारण, डेटाबेस, नेटवर्किंग, सॉफ्टवेयर, analytics) on-demand उपलब्धता, स्केलेबिलिटी, और pay-per-use मूल्य निर्धारण के साथ प्रदान करता है।
Deployment मॉडल:
| मॉडल | विवरण | उदाहरण |
|---|---|---|
| Public cloud | तृतीय-पक्ष provider द्वारा स्वामित्व/प्रबंधित संसाधन | AWS, Microsoft Azure, Google Cloud |
| Private cloud | एकल संगठन के लिए समर्पित cloud | NIC Cloud (भारत का सरकारी cloud — MeghRaj) |
| Hybrid cloud | public और private का संयोजन | अधिकांश बड़े उद्यम |
| Multi-cloud | एकाधिक cloud providers का उपयोग | AWS + Azure + GCP एक साथ उपयोग |
सेवा मॉडल:
| मॉडल | ग्राहक नियंत्रण | Provider नियंत्रण | उदाहरण |
|---|---|---|---|
| IaaS (Infrastructure) | OS, middleware, डेटा, applications | हार्डवेयर, virtualisation, नेटवर्क | AWS EC2, Azure VMs, Google Compute Engine |
| PaaS (Platform) | डेटा, applications | OS, runtime, middleware, हार्डवेयर | Google App Engine, Heroku, Azure App Service |
| SaaS (Software) | केवल उपयोगकर्ता डेटा (कॉन्फ़िगरेशन) | सब कुछ | Gmail, Salesforce, Office 365, Zoom |
भारत का GovCloud — MeghRaj
- NIC (National Informatics Centre) के अंतर्गत भारत का राष्ट्रीय Cloud; 2014 में शुभारंभ
- सरकारी applications होस्ट: GSTN (GST portal), Aadhaar सिस्टम, सरकारी ई-मेल
- DigiSakshee — cloud-आधारित चुनाव प्रबंधन बुनियादी ढाँचा
4.3 Edge Computing
Edge computing सभी डेटा को केंद्रीय cloud data centre भेजने के बजाय स्रोत के पास (नेटवर्क के किनारे) डेटा प्रसंस्करण करता है।
Edge computing की आवश्यकता क्यों?
- Latency: Cloud round-trip = 50–200 ms; edge = <5 ms — स्वायत्त वाहन, औद्योगिक रोबोट, AR/VR, रिमोट सर्जरी के लिए महत्वपूर्ण
- Bandwidth: केवल प्रासंगिक/प्रसंस्कृत डेटा cloud को भेजा जाता है, लागत कम होती है
- Privacy: संवेदनशील डेटा (रोगी स्वास्थ्य, कारखाना) स्थानीय रूप से प्रसंस्करण, cloud को नहीं भेजा
Edge बनाम Fog बनाम Cloud:
- Cloud: केंद्रीकृत, शक्तिशाली, उच्च latency
- Fog: edge और cloud के बीच मध्यवर्ती नोड (Cisco की अवधारणा)
- Edge: डिवाइस या स्थानीय सर्वर स्तर पर प्रसंस्करण
