Tuesday, 4 July 2017

பிக் டேட்டா - சுஜாதா தேசிகன்

அலுவலகத்தில் இருந்தேன். என் பத்து வயது மகன் தொலைப்பேசினான்.

“சுப்பாண்டி காமிக்ஸ் ஆன்லைனில் ஆர்டர் செய்துவிடு” என்றான்.

“இப்ப மீட்டிங்கில் இருக்கேன்... அப்பறம்.”

ஒரு மணி நேரம் கழித்து மீண்டும் தொலைப்பேசி அழைப்பு.

“என்ன ஆர்டர் செஞ்சாச்சா?”

“ஃபிளிப் கார்ட்டில் இல்லையே...”

”ஐயோ அப்பா... கூகிளில் சுப்பாண்டி என்று தேடு... அமேசான், ஸ்னாப் டீல்... நிறைய வரும் விலையுடன்... எது சீப்போ அதை வாங்கு...”


இந்தச் சம்பவத்துக்கும் ‘பிக் டேட்டா’வுக்கும் தொடர்பு இருக்கிறது. கோயில் கல்வெட்டு பார்த்திருப்பீர்கள். அது ஒரு விதமான தகவல். நம் கணினியில், தாத்தாவின் டைரியில் இருப்பது எல்லாம் தகவல்களே.

உதாரணத்துக்கு உங்கள் தாத்தாவின் டைரியில் நான்கு என்ற குறிப்பைப் பார்க்கிறீர்கள். அது வெறும் எண். அது தகவல் ஆகாது. ஆனால் அதே தகவலுக்கு முன் வேஷ்டி என்று இருந்தால், அது சலவைக் கணக்கு என்று சுலபமாகப் புரிந்துவிடும்.

டைரியை மேலும் திருப்பினால் மீண்டும் நான்கு வேஷ்டி என்று வருகிறது என்று வைத்துக்கொள்ளுங்கள். அதன் மாதம், தேதி, கிழமையைப் பாருங்கள். அதிலிருந்து எதாவது தகவல் கிடைக்கலாம். உதாரணமாக உங்கள் தாத்தா மாதா மாதம் திங்கட்கிழமை நான்கு வேஷ்டி சலவைக்குக் கொடுக்கிறார். அல்லது பதினைந்து நாட்களுக்கு ஒருமுறை சலவைக்காரர் வருகிறார் என்று சிலவற்றை யூகிக்கலாம்.

நான்கு என்பது டேட்டா. அது வேறு ஒன்றோடு தொடர்புப்படுத்தப்படும்போது தகவல் ஆகிறது. இதே டைரி ஆர்.கே.நகரில் கிடைத்தால்? சலவை நோட்டுக்களாக இருக்கலாம்.

மார்ச் 19, 2017 ஹிந்து பத்திரிகையில் ‘Raise in H1N1 cases, but no need to panic’ என்று ஒரு கட்டுரை புள்ளிவிவரத்துடன் வந்தது. இன்று H1N1 பழக்கப்பட்ட பெயராகிவிட்டது. ஆனால் 2009ல் இந்தப் பன்றிக் காய்ச்சல் வந்தபோது உலகமே பதறியது. பலர் உயிரிழந்தார்கள். எங்கே எப்படிப் பரவுகிறது என்று கண்டுபிடிக்க கஷ்டப்பட்டார்கள். இந்த சமயத்தில் ‘நேச்சர்’ (Nature) என்ற அறிவியல் இதழில் கூகிள் ஓர் ஆராய்ச்சிக் கட்டுரை வெளியிட்டது. 2003-2008ல் மக்கள் ‘இருமல், காய்ச்சல்’ என்ற வார்த்தைகளை எப்போது தேடுகிறார்கள், அந்தத் தொடர்பை வைத்துக் காய்ச்சல் எப்போது எங்கெல்லாம் பரவியது என்று கணித்தது. இவர்கள் தேடிய எண்ணிக்கை ஐம்பது மில்லியன் வார்த்தைகள்.

2009ல் H1N1 பரவ ஆரம்பித்தபோது, 450 மில்லியன் தகவல்களைத் தேடி அதிலிருந்து 45 அடிக்கடி தேடும் சொற்களைக் கண்டுபிடித்து, கணித சூத்திரம் கொண்டு எங்கெல்லாம் பரவுகிறது என்று கணித்தது. கூகிள் செய்த விஷயத்துக்கு இன்னொரு பெயர் ‘பிக் டேட்டா.’

டிவிட்டர், ஃபேஸ்புக் மற்றும் பிற சமூக ஊடகங்களில் நீங்கள் பகிரும் ஒவ்வொரு விஷயமும் ஏதோ ஒரு விதத்தில் எங்கோ உபயோகப்படுத்தப்படுகிறது.

மறைந்த முதல்வர் ஜெ.ஜெயலலிதா கடந்த ஆறு மாதங்களில் கூகிளில் எப்படித் தேடப்பட்டார் என்று நீங்கள் பார்க்கலாம். இதில் இன்னும் நுணுக்கமாக திருச்சியில் எவ்வளவு பேர் தேடினார்கள், பெங்களூரில் எவ்வளவு பேர் தேடினார்கள் என்று கண்டுபிடிக்கலாம்.

நீங்கள் முகநூலில் பதிவிடும் ‘குட்மார்னிங்’ மொக்கைகளையும் ஒருவர் கணக்கு எடுத்துக்கொண்டு இருக்கிறார். நாளைக்கே பெங்களூரில் இருப்பவர்கள்தான் அதிகம் மொக்கை போடுகிறார்கள் என்று புள்ளிவிவரத்துடன் வெளியிடப்படலாம். முகநூலில் கோடைக்கால விடுமுறையின்போதும், கிருஸ்துமஸுக்கு முன்பும் நிறைய பேர் ‘Break-up’ என்று பதிவிடுகிறார்கள் என்கிறது இன்னொரு புள்ளிவிவரம். டிவிட்டரில் வரும் டிரெண்ட் எல்லாம் இந்த சமாசாரம்தான்!.

x-x-x-x-x-x

2003ல் தன் தம்பியின் திருமணத்துக்கு விமானம் பிடித்துச் செல்கிறார் Oren Etzioni. திருமணத்துக்கு முன்பே விமான டிக்கெட்டை முன்பதிவு செய்துவிட்டார். விமானத்தில் பயணம் செய்யும்போது பக்கத்தில் இருந்தவரிடம் பேச்சுக் கொடுத்தார். பேச்சுக்கு நடுவில், “நீங்க எப்ப டிக்கெட் புக் செஞ்சீங்க? எவ்வளவு ஆச்சு?” என்ற கேள்விக்கு அவருக்குக் கிடைத்த பதில் ஆத்திரமூட்டியது. பக்கத்தில் இருந்தவர் சமீபத்தில்தான் வாங்கியிருந்தார். வாங்கிய விலை மிகக் குறைச்சல். பக்கத்தில் இருந்த இன்னொருவரிடம் கேட்டார். அவரும் குறைந்த விலையில்தான் வாங்கியிருந்தார். அந்த விமானத்தில் இருந்த பலர் குறைந்த விலையில்தான் டிக்கெட் வாங்கியிருந்தது ஓரனுக்குத் துரோகமாகப் பட்டது. வீட்டுக்கு வந்தபிறகு யோசித்தார்.

விமான டிக்கெட் விலை எல்லாம் பயண வலைத்தளத்திலிருந்து எடுத்து ஆராய்ந்தார். ஏன், எப்போது விலை குறைகிறது என்று தெரியவில்லை. ஆனால் விலை எப்போது, அதிகம் எப்போது கம்மி என்று பன்னிரண்டாயிரம் மாதிரிகளை வைத்து ஒரு நிரல் (ப்ரோக்ராம்) எழுதினார். அந்த நிரல் ‘டிக்கெட் வாங்கலாமா வேண்டாமா’ என்று சொல்லிவிடும். இதற்கு ‘Farecast’ என்று பெயர் சூட்டினார். நீங்கள் உங்கள் பயணத் தேதி, போகும் இடம் ஆகியவற்றைக் கொடுத்தால் “இன்னும் ஒரு வாரம் பொறுங்கள், டிக்கெட் விலை குறைய வாய்ப்பு இருக்கிறது” என்று சொல்லும்.

இதனிடையில், ஓரானுக்கு பிளைட் டேட்டா பேஸில் உள்ள தகவல்கள் கிடைக்க, ஒரு வருடத்தில் 10ஆம் நம்பர் சீட்டுக்கு என்ன விலை என்று கூடத் தெரிந்துவிட்டது. சாதாரண டேட்டாவை புத்திசாலித்தனமாக உபயோகித்தால், பேசும்.

டேட்டா என்றால் வெறும் எண்கள் என்று நினைத்துக்கொண்டு இருக்கிறோம். உங்கள் படம், வீடியோ, நீங்கள் உபயோகிக்கும் மொபைல், நீங்கள் போகும் இடங்கள், நீங்கள் வாங்கும் பொருட்கள் என்று அடுக்கிக்கொண்டே போகலாம். எல்லாமே டேட்டாதான்.

ஒரு உதாரணம் பார்க்கலாம். சென்ற வாரம் திருச்சிக்கு ஆன்லைனில் ரயில் டிக்கெட் புக் செய்தேன். திருச்சிக்குக் கிளம்பிக்கொண்டு இருக்கிறேன். கூகிள் எனக்குத் தகவல் அனுப்பியது, ‘திருச்சியில் நாளை வெய்யில் கொஞ்சம் அதிகம்’ என்று.

உங்களிடம் மொபைல் இருந்தால் உங்கள் பாதை கண்காணிக்கிறது. ஏப்ரல் மாதம் நான் பயணம் செய்த இடங்கள் என்று தேடிய போது கிடைத்த தகவல் இது

போன வருஷம் எங்கெல்லாம் சென்றேன் என்று கூகிளிடம் கேட்டபோது கிடைத்த தகவல், 87 இடங்கள். ஒவ்வொரு இடத்திலும் எவ்வளவு நேரம் இருந்தேன், எந்த சுங்கச்சாவடியில் எவ்வளவு நேரம் வரிசையில் இருந்தேன் என்று எல்லாத் தகவல்களும் கிடைக்கின்றன. இந்த மாதிரி ஒன்று இருக்கிறது என்று உங்கள் மனைவிக்குத் தெரியாமல் பார்த்துக்கொள்ள வேண்டியது உங்கள் பொறுப்பு!

ஆச்சரியம் போதவில்லை என்றால் மேலும் சில விஷயங்கள் இருக்கின்றன. நான் தினமும் அலுவலகம் செல்லும் வழி, சராசரி கிளம்பும் நேரம், திரும்பும் நேரம் முதலியவற்றை கூகிள் குறித்து வைத்துக்கொள்கிறது. அப்போதைய டிராஃபிக் எப்படி இருக்கிறது என்று பார்த்து, “வீட்டுக்கு இப்ப கிளம்பினா கிட்டதட்ட 20 நிமிடம் லேட்டாகும்” போன்ற தகவல்களைத் தருகிறது. மேலும், நான் எந்த சமயம் நடந்தேன், எப்போது காரில் போனேன், எப்போது பைக்கில் போனேன் என்று கூடச் சொல்கிறது!

அமேசானில் ஏதாவது சுயசரிதை அல்லது சிறுகதைத் தொகுப்பை வாங்கினால் சில மணியில் அந்த எழுத்தாளர் எழுதிய வேறு சில புத்தகங்கள் அல்லது மேலும் சில சுயசரிதைகள் உங்களுக்குப் பரிந்துரைக்கப்படுவதைப் பார்த்திருப்பீர்கள்.

கடன் அட்டையில் (credit card) நீங்கள் வாங்கும் பொருட்களைக் கொண்டு ஆணா பெண்ணா, உங்கள் வயது, விருப்பு வெறுப்பு என்று பல விஷயங்களைக் கண்டுபிடிக்கலாம். அமேரிக்காவில் ஒரு டீனேஜ் பெண்ணுக்கு, கர்ப்பிணிகளுக்குத் தேவையான பொருட்கள் வாங்க தள்ளுபடி கூப்பன் அனுப்பியது. அதைப் பார்த்த அவர் அப்பா அந்த கம்பெனியின் மீது புகார் கொடுத்தார். ஆனால் அவருடைய டீன் ஏஜ் பெண் கர்ப்பம் என்று பிறகுதான் அவருக்கு தெரிந்தது. அவருக்கு முன்பே கிரெடிட் கார்ட் கம்பெனிக்குத் தெரிந்திருந்தது.

ஒரு சினிமா தியேட்டரில் நீங்கள் உட்காரும் சீட்டில் சென்சர் பொருத்தினால் மக்கள் எப்படி உட்காருகிறார்கள் என்று கண்டுபிடிக்கலாம். இடைவேளையின்போது எவ்வளவு பேர் எழுந்து போனார்கள், நயந்தாரா வந்தபோது எவ்வளாவு பேர் நெளிந்தார்கள் என்று பல விஷயங்களைக் கண்டுபிடிக்கலாம்.

நாம் தினமும் உபயோகிக்கும் கூகிளில் தப்பாக ஏதாவது டைப் செய்து பாருங்கள். உடனே சரியான வார்த்தையைப் பரிந்துரைக்கும். இது எல்லாம் பிக் டேட்டா சமாசாரங்கள்தான். நீங்கள் தேடும் விஷயத்தில் எத்தனையாவது லிங்கை கிளிக் செய்கிறீர்கள், கிளிக் செய்த இடத்தில் எவ்வளவு நேரம் இருக்கிறீர்கள்... எல்லாம் தகவல்களே!

இன்னும் பத்து வருஷத்தில் இந்தத் துறை எங்கோ செல்லப் போகிறது. உங்கள் டி.என்.ஏ, மருத்துவ ரிப்போர்ட், அதனுடன் செயற்கை நுண்ணறிவு என்று எதை எதையோ செய்யப் போகிறார்கள்.

பாய்ஸ் படத்தில் செந்தில் ஒரு கோயிலுக்குமுன் படுத்திருப்பார். ஓர் இளைஞன் ஜூனியராக வந்து சேர்ந்துகொள்வான். செந்தில் அந்தப் பையனுக்குத் தரும் வேலை - வேளா வேளைக்கு விதவிதமான கோயில் பிரசாதம் வாங்கி வரும் வேலை! அந்த இளைஞன் ‘இது எல்லாம் ஒரு பொழப்பு’ என்று எரிச்சலாகச் சொல்லும்போது செந்தில் சொல்லும் வசனம், “நான் உனக்குத் தருவது சோறு இல்லை, இன்பர்மேஷன். இன்பர்மேஷன் இஸ் வெல்த்” என்பார்.

இன்ஃபர்மேஷன் இஸ் வெல்த். இதுதான் பிக்டேட்டாவின் அடிநாதம்.

No comments:

Post a Comment

அநாகரீகமான பின்னூட்டங்கள் வெளியிடப்படமாட்டாது.