ট্রাই ট্রি ( Trie Tree )

আগে জেনে আসা উচিত : ট্রি, লিঙ্কড লিস্ট, Prefix কাকে বলে

সূচনা

গুগল সার্চ করার সময়ে দেখা যায় কোন কিছু লিখলে গুগল আমাদের কে কিছু সাজেশন দেখায় যেমন লিখলাম, যেমনটি নিচের মতো –

google suggestion

 

এটা কিভাবে করে গুগল ? এই টাকে যদি একটি প্রব্লেম হিশেবে চিন্তা করি , তাহলে সহজভাবে বলা যায় –

তোমাকে অনেকগুলি শব্দের অভিধান ( Dictionary ) দেয়া আছে, এখন তোমাকে আবার কতগুলো শব্দ দেয়া হবে, প্রতিটি শব্দ এর জন্য তোমাকে বলতে হবে যে অই শব্দ টি তোমার অভিধানের কতগুলো শব্দের Prefix ?

ধরো, তোমার অভিধানে এই শব্দ গুলো আছে –

ABBA

ABC

ACCA

ANA

ANACONDA

BAAB

এখন যদি তোমাকে জিজ্ঞাশা করা হয় যে “AB” শব্দটি অভিধানের কতটি শব্দের Prefix ? উত্তর হবে ২, শুধু “A” এর ক্ষেত্রে উত্তর হবে ৫।

এবার এই প্রব্লেম এর সল্যুশন বের করি-

অবশ্যই Brute Force একটি উপায় যার Order হবে প্রায় O(n^3) , কিন্তু যদি আমরা  আরও ভালো উপায় খুজতে চাই তখন কি হতে পারে ? একটি উপায় হতে পারে আমার ডিকশনারির সব গুলো শব্দ কে Lexicographically সাজায়ে বাইনারি সার্চ। কিন্তু সে উপায়ে Order হবে O(nlogn)। এর চেয়ে ভালো উপায় আছে কি ?

হুম… আছে। আরেকটি উপায় হচ্ছে ট্রাই ট্রি ( Trie Tree ). যা O(n) [ আসলে O( given word’s length ) ] এ কাজ করে।

ট্রাই ট্রি কি জিনিশ ?

ট্রাই ট্রি একটি ডাটা স্ট্রাকচার, যার নাম টি এসেছে “Retrieval” শব্দটি থেকে । ট্রাই ট্রি কে প্রেফিক্স ট্রি ও বলা হয়ে থাকে। ট্রাই ট্রি এর বৈশিষ্ট্য হচ্ছে-

১। ট্রাই ট্রি এর প্রতিটি ভারটেক্স একটি সম্পূর্ণ শব্দ বা একটি শব্দের Prefix কে প্রকাশ বা নির্দেশ করে।

২। এই ট্রি এর রুট (Root) একটি Empty String, এবং রুট থেকে তার প্রতিটি সন্তান এর মধ্যে Shortest Path Distance অই দৈর্ঘ্য এর প্রেফিক্স কে নির্দেশ করে। যদি রুট থেকে কোন সন্তান এর মধ্যে সবচেয়ে কাছাকাছি পথ এর দৈর্ঘ্য ২ হয় তার মানে হচ্ছে অই vertex টি কোন এক বা একাধিক শব্দের ২ দৈর্ঘ্য এর prefix কে নির্দেশ করে।

৩। যদি A এবং B ট্রাই ট্রি এর দুটি ভারটেক্স হয়, এবং A যদি B এর সবচেয়ে নিকটবর্তী পিতা হয় তাহলে A অবশ্যই B এর প্রেফিক্স কে নির্দেশ করে।

ট্রাই ট্রি দেখতে কিরকম ?

যদি আমরা “HOME”, “HOUSE”, “HOMEWORKER”, “MOUNTAIN” শব্দ গুলি নিয়ে একটি ট্রাই ট্রি বানাই , তাহলে দেখতে এরকম হবে –

trie2খেয়াল করে দেখ, প্রত্যেক টি ভারটেক্স কিন্তু একটি প্রেফিক্স কে নির্দেশ করছে। HOME, HOUSE দুটি শব্দেরই কিন্তু ২ দৈর্ঘ্য এর প্রেফিক্স সমান, এ কারনে ৩ দীর্ঘের প্রেফিক্স এর সময় দুটি চাইল্ড নোড আসছে। আর প্রত্যেকটি কমলা রঙ করা ভারটেক্স বা নোড একটি সম্পূর্ণ শব্দ কে নির্দেশ করে।

ট্রাই এর কোড

নিচে Reference অংশে কিছু লিঙ্ক দেয়া আছে, ওখান থেকে কোড পাবে।

ট্রাই দিয়ে প্রব্লেম সল্ভিং

যেই প্রব্লেম দিয়ে শুরু করেছিলাম ব্লগটি সেই প্রব্লেম টা এবার ট্রাই দিয়ে সমাধান করি। যদি প্রতিটি ভারটেক্স এ আমরা একটা কাউন্টার রাখি যা আমাদেরকে বলে দিবে যে অই প্রেফিক্স টা কতটি শব্দের প্রেফিক্স , তাহলেই তো হয়ে গেল তাই না। আমরা প্রথমেই অভিধান এর শব্দ গুল ট্রাই ট্রি তে Insert করবো এবং যেইশব নোড দিয়ে যাব তাদের কাউন্টার বাড়াবো, এরপর প্রতিটি Query  করা শব্দের জন্য ট্রাই ট্রি তে দেখবো যেই অই শব্দটার পুরোটাই আমাদের ট্রি তে আছে কিনা , যদি থাকে তাহলে যেই নোড এ গিয়ে শেষ হয়েছে শব্দটা সেই নোড এর কাউন্টার ই তো আমাদের উত্তর।

এখন যদি তোমাকে কোন Query String দিয়ে যদি বলা হয় যে এই String টা তোমার অভিধানে আছে কিনা ? তাহলে কিভাবে ট্রাই দিয়ে বের করবো ? সহজ ব্যাপার, প্রতিটি নোড এ একটি ফ্ল্যাগ রাখবো যা নির্দেশ করবে যেই অই নোড টি কোন শব্দের শেষ কিনা মানে অই নোড এ কোন শব্দ শেষ হয়েছে কিনা। এখন আমরা যখন একেকটি শব্দ অভিধানে Insert করবো তখন যেই নোড এ আমাদের শব্দ টা শেষ হবে সেই নোড এর ফ্ল্যাগ টা 1 করে দিবো। এখন Query String এর জন্য আমরা ট্রাভারস করবো আমাদের ট্রি টা এবং দেখবো যে যেই নোড এ আমাদের query string শেষ হয়েছে তার ফ্ল্যাগ অন কিনা। সোজা না ?

রেফারেন্স

  1.  http://community.topcoder.com/tc?module=Static&d1=tutorials&d2=usingTries
  2.  http://www.toptal.com/java/the-trie-a-neglected-data-structure
  3. http://en.wikipedia.org/wiki/Trie

প্রোগ্রামিং প্রব্লেম

  1. http://www.lightoj.com/volume_problemcategory.php?category=Trie%20Tree
  2. http://www.spoj.com/problems/PHONELST/
  3. http://www.spoj.com/problems/SUBXOR/%5B/embed

ধন্যবাদান্তে

সাব্বির ইউসুফ সানি ভাই,যার কাছ থেকে এই ডাটা স্ট্রাকচার শিখেছিলাম।

 

[ কোন কিছু বুঝতে অসুবিধা হলে , এখানে কমেন্ট করতে পারো অথবা ইমেইল করতে পারো faiyaz26 [at] gmail [dot] com এ ]

C/C++ Struct

C++ Struct একটি অত্যন্ত জরুরি ফিচার C/C++ programming language এর। এই আর্টিকেল এ আমরা জানবো C structure বা C++ struct এর ব্যবহার।

প্রথমেই জানি  কখন আমাদের এই ফিচার ব্যবহার করা লাগতে পারে। ধরলাম আমরা একটি ফোন বুক প্রোগ্রাম বানাবো, যেখানে একাধিক ব্যাক্তির নাম, ঠিকানা, মোবাইল নাম্বার save করে রাখব। এখন সাধারনত আমরা কি করতাম ?


char name[1000][1001]; // each name can be upto 1000 character
int mobile [1000]; // we can store 1000 person's info
int home [1000];
 

এখন একটা ব্যাপার খেয়াল হতে পারে, আমি একি লোক এর জন্য, ৩ টি array ব্যবহার করছি, এখন ধরলাম, আমি এই প্রোগ্রাম এ আসল ডাটা গুলোর ব্যাকআপ হিশেবে আরো ৩ টা array  বানাবো। তাহলে কোড টা দাঁড়াচ্ছে এরকম-


char name[1000][1001]; // each name can be upto 1000 character
int mobile [1000]; // we can store 1000 person's info
int home [1000];

char backup_name[1000][1001]; // backup array
int backup_mobile [1000];
int backup_address [1000];
 

একি ব্যক্তি এর জন্য আমরা ৬ টা array declare করলাম, এখন কখনো যদি কোন array এর নাম পরিবর্তন করা লাগে, বা এরকম আরও ব্যাকআপ বানানো লাগে, তাহলে আমরা কিছু ঝামেলা তে পরব। তখন আমাদের মনে হতে পারে, যদি এই ৩ টা array কে একটা গ্রুপ এ রাখা যেতো, coding এ ঝামেলা কমতো। এই সমস্যা সমাধানে আমরা struct ব্যবহার করতে পারি।

এখন দেখা যাক, অই ৩ টা array কে কিভাবে একটি struct এ প্রকাশ করা যায়।


struct telephone{
char name[1001];
int mobile;
int home;
};

খেয়াল করো, struct লেখার পর একটা নাম দিতে হয়, [যেমন এখানে telephone] এই নাম দিয়েই আমরা পরে নতুন নতুন struct declare করতে পারবো। আর খেয়াল করতে হবে } এর শেষে ; [সেমিকোলন] দিতেই হবে, নাহলে compilation error হবে। এবার দেখা যাক, struct declare করা যায় কিভাবে-


struct telephone entry [1000];

এবার আমরা struct এর ভিতরের element গুলা কে access করতে চাই, কিভাবে করব, কোড দেখাই-


for(i=0;i<100;i++){
scanf(" %s",entry[i].name);
scanf("%d",&entry[i].mobile);
scanf("%d",&entry[i].home);
}

for(i=0;i<100;i++){
printf("%s",entry[i].name);
printf("%d",&entry[i].mobile);
printf("%d",&entry[i].home);
}

কাজ সহজ হয়ে গেলো অনেক , তাই না ?

এই struct feature ব্যবহার করে অনেক ডাটা স্ট্রাকচার , গ্রাফ প্রব্লেম এর অ্যালগরিদম সহজেই ইমপ্লেমেনট করা যায়।

UVA 12501: Bulky process of Reduction

UVA 12501: Bulky process of Reduction

Link: http://uva.onlinejudge.org/contests/310-4bd11ede/12501.html

Topic: Segment Tree with Lazy Propagation

This problem was given on BGC Trust University Programming Contest 12. But during the contest my team could not solve it. Later I tried this problem, got an analysis from Progkriya.com. But did not understand it properly, mayb I am newbie. 😦 Got TLE with that approach [ maybe implementation problem].

But after some googling, I have found this way. And this approach is easy to catch and a new trick to attack segment tree.

Problem Description Summary:

You will be given an array of N size, initialized with 100.

Then two of types of operation will be given.

1. change i j u

for this operation, you need to increase the numbers between index I and j by u.

for an example:

change 1 3 3

Index 1 2 3
Before Operation 100 100 100
After Operation 103 103 103

2. query i j

for this operation , you need to give some output according to the interval

for an example:

query 1 3

Index 1 2 3
Before Operation 100 106 104

Output will be

1*a[i]+ 2*a[i+1]+… +n*a[j]

So for this query output will be

1*100+2*106+3*104= 100+212+312=624

You need to print 624.

How to solve this problem??

After reading the problem, you might think, update can be done, but how to do the query. Crap!!

As we might think that, we need to traverse all the node between I and j. that would take O(nlogn). For n query, worst case will be O(n2logn).

That will give you TLE for sure.

Then how to solve it, any Mathematical formulation? So far I haven’t found any direct mathematical formula for this. But there is a Mathematical equation approach. Let’s find it out…

What if we initialize the array with this way.

Index 1 2 3 4 5
Primary Sum 100 100 100 100 100
Secondary Sum 100 200 300 400 500
Formula Index*100= 1*100 2*100 3*100 4*100 5*100

Remember this pattern of secondary sum, we need that later.

Hmm, now if a query comes for this interval [3, 5], output can be found with this formula

Secondary Sum of [3,5] – Primary sum of [3,5] * (3-1)

Generalized Equation:

For interval [ i , j ],

Output will be: Secondary sum of [ i , j] – Primary sum of [ i, j] * (i-1)

Solve this equation for arbitrary interval; check that you really get the correct output.

Now update process is kinda complex. For update process, you need to update both primary sum and secondary sum. Updating primary sum is trivial, but secondary sum is some Mathematical.

For secondary sum, we need to preserve the pattern property as we gave during the initialization.

If the operation comes like this way:

change 3 5 3

Index 1 2 3 4 5
Primary Sum Before Change 100 100 100 100 100
Secondary Sum before Change 100 200 300 400 500
Primary Sum After Change 100 100 103 103 103 
Secondary Sum after Change 100 100 Secondary Sum before Change+ index*u=300+ 3*3=309

 

400+4*3=412 500+5*3=515

So now its upon you that how do you handle the lazy propagation.

Again If you need the code, please let me know.  🙂

SPOJ YODANESS LEVEL

SPOJ YODANESS LEVEL

Problem Statement is here: http://www.spoj.pl/problems/YODANESS/

Summary:  at first you will be given an order of strings, and then you will be given another order of strings. You need to find that how many pairs of words in the order are not in relative order.

Algorithm: Segment Tree [http://wcipeg.com/wiki/Segment_tree ], BIT

This Problem is solvable with both Segment tree and BIT. But I don’t know BIT very well, that’s why I am describing the segment tree approach.

Let’s check the first sample case first line:

in the force strong you are

We can give the words some number id, so that we can identify them easily.

If id of the word in is 1, then id of the word the is 2 and so on, then we can rewrite the sentence with numbers like this way

1 2 3 4 5 6

Now let’s see the second line:

you are strong in the force

Now we can change this to integers with the value of the first order. Then we can rewrite it as-

5 6 4 1 2 3

As you word have id of 5, are word have id of 6 and so on.

Now what’s the benefit of this? Let’s check.

We will use Segment Tree now-

We will sort the value in Descending order with keeping the index information. Here’s the table will become-

Value

6 5 4 3 2 1
Index 2 1 3 6 5 4

Now we will run loop on this sequence then do some query and update.

Initially we will assume that our array is empty.

First iteration:

I get value of 6 and index of 2. So we will do sum query on this [1, 2] interval, then add it with ultimate result. Now update the index 2 with 1. Array becomes

Index

1 2 3 4 5 6
Value 1

Second Iteration:

I have value of 5, and index of 1, So again do a sum query on the interval [1,1] and add the result with ultimate result. And obviously update the index with 1. So the array becomes

Index 1 2 3 4 5 6
Value 1 1

Third Iteration:

Now Value is 4, index is 3, now do the query on [1,3], you will get 2, because before 4, we have 5,6 which are not in relative order with 4. So add 2 with the ultimate result. Update the index 3 with 1.

Index 1 2 3 4 5 6
Value 1 1 1

So on….

I am not showing the segment tree code… If you really need it… I will add it up…

 

বাংলাদেশি অনলাইন জাজ- লাইট ওজে [Light OJ]

অনলাইন জাজ কি?
wikipedia বলছে- “An online judge is an online system to test programs in programming contests. They are also used to practice for such contests. Many of these systems organize their own contests. The system can compile and execute codes, and test them with pre-constructed data. Submitted code may be run with restrictions, including time limit, memory limit, security restriction and so on. The output of the code will be captured by the system, and compared with the standard output. The system will then return the result. When mistakes were found in a standard output, rejudgement using the same method must be made.”

যারা প্রোগ্রামিং প্রবলেম সল্ভ করতে পছন্দ করেন , তারা সবাই UVA,SPOJ,TIMUS .. এর নাম জানেন। বিশেষ করে অনেকেই এ প্রবলেম সল্ভিং এ পদধূলি [নাকি হাতধুলি] দেন , UVA দিয়ে।

সময় এসেছে নিজের দেশের OJ দিয়ে প্রবলেম সল্ভিং এ যাত্রা শুরু করা। বাংলাদেশের OJ , LIGHTOJ.
যার লিঙ্ক হচ্ছেঃ http://180.211.224.73/lightoj/index.php

এই OJ এর নির্মাতা জানে আলম জান ভাই। তিনি গুগল এ কর্মরত । তিনি UVA তে ২২০০+ প্রবলেম সল্ভ করেছেন । ২০০৯ সালে ACM Final এ অংশ নিয়েছিলেন।

অন্যান্য OJ থেকে LightOJ যেই দিক থেকে আলাদা তা হচ্ছে , এখানে প্রবলেম গুলো Catagorized করা, ফলে নতুন এবং পুরাতন প্রোগ্রামার রা সহজেই এক একটি বিষয়ে দক্ষতা বাড়াতে পারে।

এক নজরে LightOJ:
Number Of Problems: 300+ [Increasing]
Forum: Yes
Chat: Yes
Viewing other’s codes: Yes, after having AC for that problem
Creating Contest: Yes
User Statistics: Yes

এখনো LightOJ এর রেজিস্ট্রেশান On Request এ চলছে।
আপনি যদি LightOJ এর আইডি নিতে চান , তাহলে
এই ঠিকানায় ইমেইল করুন : jan876_du [at] yahoo [dot] com

শুরু করুন বাংলাদেশি OJ তে প্রোগ্রামিং। বাংলাদেশ কে ACM জিতাতে নিজেকে গড়ে তুলুন।