[C++] Class: Tokenize

Discussion in 'С/С++, C#, Rust, Swift, Go, Java, Perl, Ruby' started by razzzar, 17 Feb 2008.

Thread Status:
Not open for further replies.
  1. razzzar

    razzzar Elder - Старейшина

    Joined:
    16 Jun 2007
    Messages:
    92
    Likes Received:
    75
    Reputations:
    5
    Наверное все сталкивались с проблемой когда надо разбить строку по разделителям в многопоточном приложении. Функция strtok(); для этого не подходит, так как она использует статические элементы и при одновременом вызове в двух или более потоках работать будет некоректно ( я говорю о потоках, вызваных с помощью WinApi фун-ции CreateThread();, при использовании _beginthread она будет работать корректно, см. Рихтера ). Недавно я столкнулся с такой проблеме в одном из своих проектов, и для таких целей написал класс токенайзера.

    Объявление:
    Code:
    class Tokenize
    {
    public:
    	Tokenize();
    	~Tokenize();
    	void SetOriginalString(char * szString);
    	char * GetOriginalString();
    	void SetTokens(char * szToken);
    	char * GetNextToken();
    	char * GetCurrentToken();
    private:
    	std::string strOriginalString;
    	std::string strToken;
    	std::string strString;
    	bool bFinished;
    	int nCurrentPointer;
    };
    
    Описание:
    Code:
    Tokenize::Tokenize()
    {
    	strString.assign("");
    	bFinished = false;
    }
    
    Tokenize::~Tokenize()
    {
    }
    
    void Tokenize::SetOriginalString(char * szString)
    {
    	strOriginalString.assign(szString);
    	strString.assign("");
    	strToken.assign("");
    	bFinished = false;
    	nCurrentPointer = -1;
    }
    
    char * Tokenize::GetOriginalString()
    {
    	return (char *) strOriginalString.c_str();
    }
    
    void Tokenize::SetTokens(char * szToken)
    {
    	strToken.assign(szToken);
    }
    
    char * Tokenize::GetNextToken()
    {
    	if ( bFinished == true )
    	{
    		return NULL;
    	}
    	
    	if ( nCurrentPointer == -1 )
    	{
    		nCurrentPointer = (int) strOriginalString.find_first_of(strToken, 0);
    		if ( nCurrentPointer == -1 )
    		{
    			nCurrentPointer = (int) strOriginalString.find("\0", 0);
    			bFinished = true;
    			if ( nCurrentPointer == -1 )
    			{
    				return NULL;
    			}
    			return (char *) strOriginalString.c_str();
    		}
    		strString.assign(strOriginalString.substr(0, nCurrentPointer));
    		return (char *) strString.c_str();
    	}
    	else
    	{
    		int nPrevPointer = nCurrentPointer + 1;
    		nCurrentPointer = (int) strOriginalString.find_first_of(strToken, nPrevPointer);
    		if ( nCurrentPointer == -1 )
    		{
    			nCurrentPointer = (int) strOriginalString.find("\0", nPrevPointer);
    			bFinished = true;
    			if ( nCurrentPointer == -1 )
    			{
    				return NULL;
    			}
    			strString.assign(strOriginalString.substr(nPrevPointer, nCurrentPointer));
    			return (char *) strString.c_str();
    		}
    		strString.assign(strOriginalString.substr(nPrevPointer, nCurrentPointer - nPrevPointer));
    		return (char *) strString.c_str();
    	}
    }
    
    char * Tokenize::GetCurrentToken()
    {
    	return (char *) strString.c_str();
    }
    
    Пример использования:
    Code:
    Tokenize tok;
    
    tok.SetOriginalString("qwe|asd,zxc.ghj");
    tok.SetTokens("|,.");
    
    while ( tok.GetNextToken() != NULL )
    {
    	MessageBox(0, tok.GetCurrentToken(), "Tokenize", 0);
    }
    
     
    3 people like this.
  2. KEZ

    KEZ Ненасытный школьник

    Joined:
    18 May 2005
    Messages:
    1,604
    Likes Received:
    754
    Reputations:
    397
    Круто.

    const тебе для прикола дали видимо.

    Затем идут два практически идентичных куска, которые ты расписал по отдельности.

    Причем интересно, внутри класса ты юзаешь std::string, а выводишь в "не-const" char*.
    Такая обертка в обратную сторону. Сделано это видимо было для снижения скорости, ибо коду опять получилось столько же, сколько нужно для того, чтоб char* обработать руками ...

    кросс-платформенность?

    Но все же это правильнее (намного), чем сорцы Кузьмича. И вообще для античата даже... можно сказать, слишком круто. Так что плюсадин.

    PS

    =\\\\
     
    #2 KEZ, 17 Feb 2008
    Last edited: 17 Feb 2008
    2 people like this.
  3. KEZ

    KEZ Ненасытный школьник

    Joined:
    18 May 2005
    Messages:
    1,604
    Likes Received:
    754
    Reputations:
    397
    Code:
    
    // ...
    
    class Tokenize
    {
    
    public:
    
    	void Reset()
    	{
    		m_Pos = m_Source;
    	}
    
    	Tokenize(const char * Src,const char * Tokens = "|")
    	{
    		m_Pos = m_Source = strdup(Src);
    		m_End = m_Pos+strlen(m_Pos);
    		mg_Ret = 0;
    		m_Tokens = strdup(Tokens);
    	}
    
    	~Tokenize()
    	{
    		delete m_Source;
    		if (m_Tokens)
    			delete m_Tokens;
    		if (mg_Ret)
    			delete mg_Ret;
    	}
    
    	const char * GetNextToken()
    	{
    		if (mg_Ret)
    		{
    			delete mg_Ret;
    			mg_Ret = 0;
    		}
    
    		if (!*m_Pos)
    			return 0;
    
    		if (m_Tokens)
    		{
    			const char * nextpos = token_first();
    			unsigned curlen = (unsigned)(nextpos - m_Pos + 1);
    			mg_Ret = (char*)malloc(curlen);
    			lstrcpyn(mg_Ret,m_Pos,curlen);
    			m_Pos = nextpos;
    			if (m_Pos[0]) ++m_Pos;
    		}
    
    		return mg_Ret;
    	}
    
    private:
    	const char * m_Pos, * m_Tokens, * m_Source, * m_End;
    	char * mg_Ret;
    
    	const char * token_first()
    	{
    		unsigned i = 0;
    		char c;
    		const char * m = m_End;
    		while (c=m_Tokens[i++])
    		{
    			char * d = strchr(m_Pos,c);
    			if (d && d < m)
    				m = d;
    		}
    		return m;
    	}
    };
    
    // ...
    
    int main()
    {
    	Tokenize tok("abc|def|ghi.sex.dax/big/min",".|/");
    	const char * part;
    	while (part = tok.GetNextToken())
    	{
    		MessageBox(0, part, "Tokenize 1", MB_ICONEXCLAMATION);
    	}
    	tok.Reset();
    	while (part = tok.GetNextToken())
    	{
    		MessageBox(0, part, "Tokenize 2", MB_ICONINFORMATION);
    	}
    
    	return 0;
    }
    
    // ...
    
    
     
    1 person likes this.
  4. razzzar

    razzzar Elder - Старейшина

    Joined:
    16 Jun 2007
    Messages:
    92
    Likes Received:
    75
    Reputations:
    5
    KEZ, класс писался под мой проект, и там мне надо чтобы возвращало именно char *, поэтому я его и возвращаю. Кому надо спокойно может переделать чтобы возвращало то что ему нужно ;)
    Что тебе не нравится в пустом деструкторе?
    Чем напрягает return NULL; это одно и тоже что написать return 0; Все-равно при компиляции компилятор так и сделает, т.к. NULL определен посредством #define в 0 =\

    Теперь насчет твоего кода :)
    Code:
    Tokenize(const char * Src,const char * Tokens = "|")
    	{
    		m_Pos = m_Source = strdup(Src);
    		m_End = m_Pos+strlen(m_Pos);
    		mg_Ret = 0;
    		m_Tokens = strdup(Tokens);
    	}
    
    	~Tokenize()
    	{
    		delete m_Source;
    		if (m_Tokens)
    			delete m_Tokens;
    		if (mg_Ret)
    			delete mg_Ret;
    	}
    
    Сначала определяешь строку как m_Source = strdup(Src); средствами crt, а потом ее удаляешь уже средствами C++: delete m_Source; причем правильно было бы указать так: delete [] m_Source;
     
  5. KEZ

    KEZ Ненасытный школьник

    Joined:
    18 May 2005
    Messages:
    1,604
    Likes Received:
    754
    Reputations:
    397
    Значит твой проэкт неправильно составлен, т.к. если надо char* - значит ты будешь модифицировать в дальнейшем, что непрвильно.

    То, что он не несет в себе ничего нужного, зачем его писать?

    Да, надо было написать там соотв. free. Торопился. И lstrcpyn() виндовая - это тоже.
     
  6. Forcer

    Forcer Elder - Старейшина

    Joined:
    12 Apr 2007
    Messages:
    321
    Likes Received:
    98
    Reputations:
    12
    В С++ нет константы NULL. Без подключения заголовочного файла работать не будет, поэтому рекомендуется использовать обычный 0.
     
  7. razzzar

    razzzar Elder - Старейшина

    Joined:
    16 Jun 2007
    Messages:
    92
    Likes Received:
    75
    Reputations:
    5
    Forcer,
    эта константа есть в заголовочном файле который я подключаю. поэтому напрягом по ее исопльзованию не вижу. все0равно везде заменится на 0. просто я привык при работе с указателями присваивать им NULL, а обычным переменным 0 :)
    KEZ,
    на счет деструктура ступил, мой косяк :) почему-то показалось что если нельзя объявлять класс без конструктора, то нельзя и без деструктора ) забылся )
    а char * у меня там возвращается потому что используется в функциях которые требуют этот тип
     
  8. noobyara

    noobyara Member

    Joined:
    27 Jan 2008
    Messages:
    13
    Likes Received:
    8
    Reputations:
    0
    я что-то пропустил? откуда этот запрет?
    это не тип а указатель на тип, про const совет дельный..
     
  9. razzzar

    razzzar Elder - Старейшина

    Joined:
    16 Jun 2007
    Messages:
    92
    Likes Received:
    75
    Reputations:
    5
    noobyara,
    читай внимательно =\
    про const я уже как-то сам разберусь, оно не шибко и важно. а про указатели на тип поправляй 5класников ;) всем и так ясно что имелось в виду
     
  10. noobyara

    noobyara Member

    Joined:
    27 Jan 2008
    Messages:
    13
    Likes Received:
    8
    Reputations:
    0
    месяц не курю.. перечитал, еще перечитал...
    почему-то показалось, что первая часть предложения несет в себе утверждение("если нельзя объявлять класс без конструктора"), возможно я не дорос до вашего возраста и мне это только кажется..
    или вы имели ввиду, что при использовании конструктора обязательно должен использоваться деструктор(что тоже неправильно), тогда вы знаете, что излагать свои мысли правильно учат еще до того момента, как вы пойдете в пятый класс..

    я про тип упомянул, лишь по тому поводу, что KEZ в своем коде тоже тип char использует, и разница в указателях. это на самом деле не важно, как я теперь понял, и судя по всему, в большей степени зависит не от ситуации, а от человека, пишущего код..

    ухожу из темы наоффтопил и так немало, за классы спасибо.

    *noobyara ушел учить пятиклашек "азбуке С++"..
     
    #10 noobyara, 18 Feb 2008
    Last edited: 18 Feb 2008
  11. Jes

    Jes Elder - Старейшина

    Joined:
    16 Apr 2007
    Messages:
    370
    Likes Received:
    391
    Reputations:
    34
    ... пока обсуждение не перешло в драку ...closed
     
Thread Status:
Not open for further replies.