Karen Spärck Jones: නූතන සෙවුම් යන්ත්රවල නොපෙනෙන පුරෝගාමිනිය
අද වන විට අපට කිසියම් තොරතුරක් අවශ්ය වූ විට, අපගේ ඇඟිලි තුඩු මතින්ම එය සොයා ගැනීමට හැකියාව තිබේ. ගූගල් (Google), බිං (Bing) වැනි සෙවුම් යන්ත්ර හරහා අපට අවශ්ය ඕනෑම දෙයක් ක්ෂණිකව සොයාගත හැකියි. මේ අපූරු හැකියාව, අපගේ දෛනික ජීවිතයේ අත්යවශ්ය අංගයක් බවට පත්වී ඇත. නමුත් මේ දැවැන්ත තොරතුරු ප්රවාහය තුළින් අපට අවශ්යම දේ නිරවද්යව තෝරා බේරා දෙන, මෙම විප්ලවීය තාක්ෂණයේ මූලික අඩිතාලම දැමූ නොපෙනෙන වීරයන් ගැන ඔබ කොපමණ දන්නවාද? 🤔
අන්තර්ජාලයේ තොරතුරු සාගරය තුළින් නිවැරදිම දේ සොයාගැනීමට අපට උපකාරී වන, නූතන සෙවුම් යන්ත්රවල ක්රියාකාරීත්වයට අතිශයින් වැදගත් වූ එක් විශිෂ්ට චරිතයක් සිටී. ඇය තමයි කැරන් ස්පාර්ක් ජෝන්ස් (Karen Spärck Jones). ඇගේ සොයාගැනීම් නොතිබුණා නම්, අද අප අත්විඳින තොරතුරු යුගය මෙතරම් දියුණු නොවන්නට ඉඩ තිබුණා. 💡 ඇගේ අතිමහත් දායකත්වය පිළිබඳව Online Thaksalawa සමඟින් ගැඹුරින් විමසා බලමු.
%20and%20mathematical%20symbols%20(algorithms%2C%20graphs)%20converging%20towards%20a%20magnifying%20glass%20or%20a%20search%20bar%20icon.%20The%20scene%20should%20be%20well-lit%2C%20with%20warm%2C%20inviting%20colors%2C%20conveying%20intellectual%20curiosity%20and%20discovery.%20The%20composition%20should%20highlight%20her%20central%20role%20in%20the%20foundational%20theories%20behind%20modern%20search%20engines%2C%20suitable%20for%20engaging%20students%20aged%2015-18..jpg?width=1024&height=1024&seed=585911&model=flux&nologo=true)
කැරන් ස්පාර්ක් ජෝන්ස්: භාෂා විද්යාවේ සිට පරිගණක විද්යාව දක්වා 👩🔬
1935 දී එංගලන්තයේ හඩර්ස්ෆීල්ඩ් (Huddersfield) හි උපත ලද කැරන් ස්පාර්ක් ජෝන්ස්, කේම්බ්රිජ් විශ්වවිද්යාලයෙන් දර්ශන විද්යාව පිළිබඳ උපාධියක් ලබා ගත්තාය. ඇගේ මුල් කාලීන උනන්දුව යොමු වූයේ භාෂා විද්යාව සහ ස්වාභාවික භාෂා සැකසීම (Natural Language Processing - NLP) කෙරෙහිය. 🗣️ ඇය පරිගණක විද්යාවට පිවිසියේ අහම්බෙන් වුවත්, ඇගේ දායකත්වය අදටත් ලොව පුරා පරිගණක විද්යාඥයන්ට සහ තොරතුරු තාක්ෂණ ක්ෂේත්රයට අතිශයින් වැදගත් වී තිබේ. 1960 දශකයේ අගභාගය වන විට, තොරතුරු වැඩි වශයෙන් ඩිජිටල්කරණය වෙමින් පැවතුණි. මේ නිසා, විශාල දත්ත ගොනු තුළින් අවශ්ය තොරතුරු කාර්යක්ෂමව සොයා ගැනීමේ අභියෝගය මතුවිය. මෙහිදී අතින් තොරතුරු වර්ගීකරණය කිරීම හෝ සරල වචන ගැලපීම් මගින් පමණක් අවශ්ය ප්රතිඵල ලබා ගැනීම අතිශයින් අපහසු විය. මෙය තොරතුරු සොයාගැනීම (Information Retrieval - IR) ලෙස හැඳින්වෙන ක්ෂේත්රයේ මූලාරම්භය විය.
තොරතුරු සොයාගැනීමේ විප්ලවය: ප්රතිලෝම ලේඛන සංඛ්යාතය (IDF) 💎
කැරන් ස්පාර්ක් ජෝන්ස්ගේ වඩාත්ම වැදගත් සොයාගැනීම ලෙස සැලකෙන්නේ "ප්රතිලෝම ලේඛන සංඛ්යාතය" හෙවත් Inverse Document Frequency (IDF) සංකල්පයයි. 1972 දී ඇය මෙම අදහස ඉදිරිපත් කළාය. 🤯 සරලව කිවහොත්, IDF යනු යම් වචනයක වැදගත්කම තීරණය කිරීමේ ක්රමයකි. මෙහිදී, යම් වචනයක් ලේඛන එකතුවක (corpus) කොපමණ වාරයක් දිස්වන්නේද යන්න සලකා බලයි.
උදාහරණයක් ලෙස, ඔබ "පරිගණකය" යන වචනයෙන් යමක් සෙවූ විට, එම වචනය බොහෝ පරිගණක විද්යා ලිපිවල බහුලව දක්නට ලැබේ. එහෙයින්, "පරිගණකය" යනු සාමාන්ය වචනයකි. නමුත් ඔබ "ක්වොන්ටම් පරිගණකකරණය" (Quantum Computing) වැනි විශේෂිත වචනයක් සෙවූ විට, එය සාමාන්ය ලිපිවල එතරම් සුලභ නොවේ. IDF සංකල්පය පවසන්නේ, යම් වචනයක් ලේඛන සමූහයක දුර්ලභ වන තරමට, එම වචනය එම ලේඛනයට අදාළ වන විට එය වඩාත් වැදගත් වන බවයි. 💡
සරල උදාහරණයකින් පැහැදිලි කරමු: ඔබ "ඇපල්" (Apple) යන වචනයෙන් සෙවීමක් සිදු කළහොත්, "ඇපල් ගෙඩි" ගැන හෝ "ඇපල් සමාගම" ගැන ලිපි රාශියක් ලැබිය හැකියි. "ඇපල්" යනු පොදු වචනයකි. නමුත් ඔබ "iPhone" ලෙස සෙවූ විට, එය "ඇපල්" තරම් පොදු නොවේ. IDF මගින් "iPhone" වැනි නිශ්චිත වචනවලට වැඩි බරක් ලබා දෙන අතර, එමගින් ඔබට වඩාත් අදාළ ප්රතිඵල ලැබේ. මෙමගින් සෙවුම් යන්ත්රවලට, "පරිගණකය" වැනි පොදු වචනවලට වඩා "ක්වොන්ටම් පරිගණකකරණය" වැනි දුර්ලභ, නමුත් නිශ්චිත අර්ථයක් දෙන වචනවලට වැඩි බරක් දීමට හැකියාව ලැබුණි. මෙය තොරතුරු සොයාගැනීමේ නිරවද්යතාවය (precision) සහ අදාළත්වය (relevance) වැඩි දියුණු කළේය.
TF-IDF සහ එහි අසීමිත බලපෑම 🚀
IDF සංකල්පය, Term Frequency (TF) හෙවත් "පද සංඛ්යාතය" සමඟ ඒකාබද්ධව භාවිතා වන විට, එය TF-IDF ලෙස හැඳින්වේ. TF යනු යම් ලේඛනයක් තුළ යම් වචනයක් දිස්වන වාර ගණනයි. TF-IDF ඇල්ගොරිතමය මගින්, යම් ලේඛනයක් යම් විමසුමකට (query) කොතරම් දුරට අදාළද යන්න ගණනය කරයි. මෙය සෙවුම් යන්ත්රවල හරය බවට පත් විය.
අද අප භාවිතා කරන ගූගල් වැනි සෙවුම් යන්ත්ර, යම් විමසුමකට වඩාත් අදාළම ප්රතිඵල ඉහළින්ම පෙන්වීමට TF-IDF වැනි සංකල්පවල විවිධ වැඩිදියුණු කළ අනුවාදයන් භාවිතා කරයි. 🔍 මේ නිසා, අපට අවශ්ය තොරතුරු ඉතා ඉක්මනින් හා කාර්යක්ෂමව සොයා ගැනීමට හැකි වී තිබේ. TF-IDF හි බලපෑම සෙවුම් යන්ත්රවලට පමණක් සීමා නොවීය. දත්ත විශ්ලේෂණය (Data Analysis), ස්වාභාවික භාෂා සැකසීම (Natural Language Processing), ලේඛන සාරාංශකරණය (Document Summarization), ස්පෑම් පෙරීම (Spam Filtering), යන්ත්ර ඉගෙනීම (Machine Learning) සහ කෘත්රිම බුද්ධිය (AI) වැනි ක්ෂේත්රවලට ද TF-IDF සංකල්පය අතිශයින් වැදගත් වී ඇත. උදාහරණයක් ලෙස, යම් ඊමේල් පණිවිඩයක් ස්පෑම් එකක්ද නැද්ද යන්න තීරණය කිරීමට එහි ඇති වචනවල TF-IDF අගයන් භාවිතා කළ හැකියි. 🤖 Online Thaksalawa ඔබට මෙම සංකල්ප තවදුරටත් පහසු කරයි.
ඇගේ උරුමය සහ කාන්තාවන් සඳහා වූ කැපවීම 🌍
කැරන් ස්පාර්ක් ජෝන්ස් තොරතුරු සොයාගැනීමේ ක්ෂේත්රයට අමතරව, පරිගණක භාෂා විද්යාවට (Computational Linguistics) සහ ස්වාභාවික භාෂා අවබෝධයට (Natural Language Understanding) ද විශාල දායකත්වයක් ලබා දුන්නාය. ඇය කේම්බ්රිජ් විශ්වවිද්යාලයේ පරිගණක විද්යා දෙපාර්තමේන්තුවේ මහාචාර්යවරියක ලෙස කටයුතු කළ අතර, ඇගේ දැනුම හා අත්දැකීම් සිසුන් සමඟ බෙදා ගත්තාය. 🎓
පරිගණක විද්යා ක්ෂේත්රයේ කාන්තාවන්ගේ සහභාගීත්වය ඉහළ නැංවීම සඳහා ඇය විශාල උනන්දුවක් දැක්වූවාය. 👩💻 ඇය කාන්තාවන්ට මෙම ක්ෂේත්රයට පිවිසීමට සහ එහි රැඳී සිටීමට දිරිගැන්වූ අතර, ඔවුන් මුහුණ දෙන අභියෝග පිළිබඳව කතා කළාය. ඇගේ ජීවිත කාලය තුළ ඇය විවිධ සම්මාන හා ඇගයීම් රැසකින් පිදුම් ලැබුවාය. බ්රිතාන්ය පරිගණක සංගමයේ (British Computer Society) සභාපතිනිය ලෙස ද ඇය කටයුතු කළාය. 2007 දී ඇය අභාවප්රාප්ත විය. ඇයගේ කාර්යය අපගේ දෛනික ජීවිතයට කෙතරම් බලපෑමක් කරන්නේද යන්න බොහෝ දෙනෙකුට නොපෙනුණත්, ඇය නූතන තොරතුරු යුගයේ සැබෑ පුරෝගාමිනියකි. 🥳
නිගමනය:
කැරන් ස්පාර්ක් ජෝන්ස් යනු අප බොහෝ දෙනෙකුට නුහුරු නමක් වුවද, ඇයගේ IDF සංකල්පය නොතිබුණා නම්, අද අප අත්විඳින අන්තර්ජාලයේ තොරතුරු සොයාගැනීමේ පහසුව කිසිදාක ඇති නොවන්නට ඉඩ තිබුණි. 🔎 ඇය නූතන සෙවුම් යන්ත්රවල නොපෙනෙන මව ලෙස හැඳින්වීම අතිශයෝක්තියක් නොවේ. ඇගේ සොයාගැනීම්, තොරතුරු තාක්ෂණයේ මූලික කුළුණු අතරින් එකක් වන අතර, එය අනාගත තාක්ෂණික දියුණුවට ද තවදුරටත් බලපානු ඇත. 💡
අපගේ දෛනික ජීවිතය පහසු කරන, නමුත් එතරම් ප්රසිද්ධ නොවන මෙවැනි විද්යාඥයන්ගේ දායකත්වය අගය කිරීම, නව සොයාගැනීම් කෙරෙහි අපව පොළඹවනු ඇත. මෙම ලිපිය ඔබට ප්රයෝජනවත් නම්, Online Thaksalawa හරහා බෙදා ගැනීමට අමතක කරන්න එපා! 🚀
අප අවට ඇති තාක්ෂණය පිටුපස සිටින නොපෙනෙන වීරයන් ගැන තවදුරටත් ඉගෙන ගැනීමට ඔබ උනන්දු වන්නේ නම්, අප සමඟ රැඳී සිටින්න.
0 Comments