Bash에서 문자열에 하위 문자열이 포함되어 있는지 확인하는 방법

How Check If String Contains Substring Bash



문제는 Bash에서 문자열에 하위 문자열이 포함되어 있는지 확인하는 방법입니다. 답은 패턴 일치를 사용하는 것입니다. 이것은 또 다른 질문을 낳습니다. 패턴 매칭이란 무엇입니까? 글쎄, 문장의 구에는 특정 특성이 있습니다. 그렇기 때문에 같은 문장이나 다른 문장에서 다른 구와 구별됩니다. 특성을 패턴으로 코딩할 수 있습니다. 그런 식으로 문자열의 특정 구를 식별할 수 있습니다. 이 문서에서는 더 큰 문자열에서 특정 하위 문자열을 식별하고, 일치하는 하위 문자열을 다른 하위 문자열과 바꾸고, 인덱스로 더 큰 문자열에서 하위 문자열을 찾는 방법을 설명합니다. 그러나 설명에 들어가기 전에 Bash에서 문자열이 설정되는 다양한 방법을 기억해야 합니다.

공백을 이스케이프하여 문자열

문자열은 각 공백을 공백 이스케이프 시퀀스 ' '로 대체하여 구성할 수 있습니다. 에서와 같이:







마이바=관광~에 이집트는 국가 중 하나입니다. 's 최고의 경제 산업.
던졌다 $myVar

출력은 다음과 같습니다.

이집트의 관광산업은 이집트의 주요 경제 산업 중 하나입니다.

참고: 아포스트로피는 공백 이스케이프 시퀀스도 사용했습니다.

작은따옴표로 문자열

프로그래머가 문자열의 모든 공백을 이스케이프 처리할 시간이 있습니까? 아니요. 따라서 두 개의 작은따옴표를 사용하여 문자열을 구분하는 것이 더 좋습니다. 와 같은:

마이바='이집트의 관광은 국가 중 하나' ''를 선도하는 경제산업.'

작은 따옴표로 묶인 문자열은 이스케이프 시퀀스의 확장(효과로 대체)을 허용하지 않습니다. 다행히 두 문자열이 나란히 코딩되면 하나의 문자열로 간주됩니다. 위와 같이 이스케이프 시퀀스를 중간에 삽입할 수 있습니다. 이스케이프 시퀀스가 ​​확장됩니다. 따라서 출력은 다음과 같습니다.

이집트의 관광산업은 이집트의 주요 경제 산업 중 하나입니다.

큰따옴표로 묶은 문자열

큰따옴표를 사용하면 이스케이프 시퀀스도 확장되지 않지만 변수는 확장됩니다. 다음 코드는 이를 보여줍니다.

마이바=관광~에 이집트는 국가 중 하나입니다. 's 최고의 경제 산업.
던졌다 $myVar

출력은 다음과 같습니다.

이집트의 관광산업은 이집트의 주요 경제 산업 중 하나입니다.

참고: 아포스트로피는 공백 이스케이프 시퀀스도 사용했습니다.

이 문서에서 고려되는 주요 문자열 유형은 작은따옴표로 묶인 문자열입니다.

정규 표현식 기초

정규식

다음 문자열을 고려하십시오.

이 세상은 정말로 우리의 집이 아닙니다.

세계를 관심 부분 문자열로 둡니다. 그런 다음 큰 문자열(전체 문자열)을 대상 문자열 또는 간단히 대상이라고 합니다. 따옴표로 묶인 '세계'를 정규식 또는 간단히 정규식이라고 합니다. 이 경우에는 내용인 세계가 패턴입니다.

단순 매칭

다음 코드에서 'world'라는 단어가 대상에서 발견되면 해당 단어가 일치했다고 말합니다.

NS='이 세상은 우리 집이 아니다.'
등록='세계'
만약 [[ $ str= ~$reg ]];그 다음에
던졌다설립하다
또 다른
던졌다찾을 수 없음
~이다

~ 뒤에 오는 할당 연산자인 =~ 를 바인딩 연산자라고 합니다. 조건은 패턴이 대상 문자열에서 일치하는지 확인합니다. 패턴에 해당하는 부분 문자열이 대상에서 발견되면 echo 문은 발견됨을 표시합니다. 찾을 수 없으면 echo 문은 찾을 수 없음을 표시합니다. 이 코드의 출력은 다음과 같습니다.

설립하다

패턴으로 세계는 대상에서 발견됩니다. [[ 및 ]] 이후의 구분 공백은 유지됩니다.

무늬

위의 코드에서 'world' 따옴표는 정규식이고 world 자체는 패턴입니다. 이것은 간단한 패턴입니다. 그러나 대부분의 패턴은 그렇게 간단하지 않습니다. 패턴은 찾을 하위 문자열의 특성입니다. 따라서 Bash 패턴은 특정 메타 문자를 사용합니다. 메타 문자는 다른 문자에 대한 문자입니다. 예를 들어 Bash 패턴은 다음 메타 문자를 사용합니다.

^ $ . * +? () [] {} |

조건 이중 괄호 안에 정규식을 입력할 수도 있습니다. 그러나 반드시 따옴표일 필요는 없습니다. 따라서 이 경우에는 말 그대로 패턴입니다.

캐릭터 클래스

대괄호

다음 코드의 출력이 발견되었으며 이는 일치가 발생했음을 의미합니다.

NS='고양이가 방에 들어왔다.'
만약 [[ $ str= ~[CBR]~에]];그 다음에
던졌다설립하다
~이다

[cbr]at 패턴은 'c'로 시작하고 at으로 계속되고 끝나는 cat과 일치합니다. [cbr]at은 'c', 'b' 또는 'r' 다음에 at이 오는 것을 의미합니다.

다음 코드의 출력이 발견되었으며 이는 일치가 발생했음을 의미합니다.

NS='방망이가 방으로 들어왔다.'
만약 [[ $ str= ~[CBR]~에]];그 다음에
던졌다설립하다
~이다

[cbr]at 패턴은 'b'로 시작하고 at으로 계속되고 끝나는 bat와 일치합니다. [cbr]at은 'c', 'b' 또는 'r' 다음에 at이 오는 것을 의미합니다.

다음 코드의 출력이 발견되었으며 이는 일치가 발생했음을 의미합니다.

NS='쥐가 방으로 들어왔다.'
만약 [[ $ str= ~[CBR]~에]];그 다음에
던졌다설립하다
~이다

[cbr]at 패턴은 'r'로 시작하고 at으로 계속되고 끝나는 rat와 일치합니다.

위의 코드 샘플에서 프로그래머는 대상 문자열에 고양이 또는 박쥐 또는 쥐가 있는지 알지 못합니다. 그러나 그는 부분 문자열이 'c', 'b' 또는 'r'로 시작하고 계속해서 at으로 끝난다는 것을 알고 있습니다. 패턴의 대괄호를 사용하면 다른 가능한 문자가 대상의 다른 문자에 상대적인 위치에서 한 문자와 일치할 수 있습니다. 따라서 대괄호에는 문자 집합이 포함되며 그 중 하나는 하위 문자열과 일치합니다. 마지막으로 일치하는 완전한 부분 문자열입니다.

문자 범위

위의 코드에서 [cbr]은 클래스입니다. 'c' 또는 'b' 또는 'r'이 단일 문자에 해당하더라도 바로 뒤에 오는 문자가 일치하지 않으면 패턴은 일치하지 않습니다.

글쎄, 클래스를 형성 할 특정 범위가 있습니다. 예를 들어, 0에서 9까지의 숫자가 클래스를 구성하고 [0-9]에는 0과 9가 포함됩니다. 소문자 'a'에서 'z'는 'a'와 'z'가 포함된 [a-z] 클래스를 형성합니다. 대문자 'A'~'Z'는 'A'와 'Z'가 포함된 클래스 [A-Z]를 형성합니다. 클래스에서 문자열의 한 문자와 일치하는 문자 중 하나입니다.

다음 코드는 일치 항목을 생성합니다.

만약 [[ 'ID8id'= ~[0-9] ]];그 다음에
던졌다설립하다
~이다

이번에는 대상이 조건의 리터럴 문자열입니다. [0-9] 범위 내에서 가능한 숫자 중 하나인 8은 'ID8id' 문자열에서 8과 일치합니다. 위의 코드는 다음과 같습니다.

만약 [[ 'ID8id'= ~[0123456789] ]];그 다음에
던졌다설립하다
~이다

여기서는 가능한 모든 숫자가 패턴으로 작성되었으므로 하이픈이 없습니다.

다음 코드에서 일치 항목을 얻습니다.

만약 [[ 'ID8iD'= ~[아~즈] ]];그 다음에
던졌다설립하다
~이다

대상 문자열 'ID8iD'의 소문자 'i' 범위 [a-z]와 소문자 'i' 사이에 일치합니다.

기억하십시오: 범위는 클래스입니다. 클래스는 더 큰 패턴의 일부일 수 있습니다. 따라서 패턴에서 텍스트는 클래스 앞 및/또는 뒤에 있을 수 있습니다. 다음 코드는 이를 보여줍니다.

만약 [[ 'ID8id는 식별자'=~ 아이디[0-9]ID ]];그 다음에
던졌다설립하다
~이다

출력은 다음과 같습니다. 패턴의 'ID8id'가 대상 문자열의 'ID8id'와 일치합니다.

부정

다음 코드에서는 일치를 얻지 않습니다.

만약 [[ '0123456789101112'= ~[^^0-9] ]];그 다음에
던졌다설립하다
또 다른
던졌다찾을 수 없음
~이다

출력은 다음과 같습니다.

찾을 수 없음

범위 앞에 ^가 없으면 대괄호 내에서 범위의 0이 대상 문자열의 첫 번째 0과 일치합니다. 따라서 범위(또는 선택적 문자) 앞에 있는 ^는 클래스를 무효화합니다.

다음 코드는 조건이 다음과 같기 때문에 일치를 생성합니다. 대상의 임의의 비숫자 문자 일치:

만약 [[ 'ABCDEFGHIJ'= ~[^^0-9] ]];그 다음에
던졌다설립하다
또 다른
던졌다찾을 수 없음
~이다

따라서 출력은 다음과 같습니다.

[^0-9] 는 숫자가 아님을 의미하므로 [^0-9] 는 [0-9] 의 부정입니다.

[^a-z] 는 소문자가 아닌 문자를 의미하므로 [^a-z] 는 [a-z] 의 부정입니다.

[^A-Z] 는 대문자가 아닌 문자를 의미하므로 [^A-Z] 는 [A-Z] 의 부정입니다.

다른 부정이 가능합니다.

패턴의 마침표(.)

패턴의 마침표(.)는 자신을 포함한 모든 문자와 일치합니다. 다음 코드를 고려하십시오.

만약 [[ '6759WXY.A3'= ~ 7.9W.Y.A]];그 다음에
던졌다설립하다
~이다

다른 문자가 일치하기 때문에 코드의 출력이 발견됩니다. 하나의 점은 '5'와 일치합니다. 다른 점은 'X'와 일치합니다. 마지막 점은 점과 일치합니다.

매칭 교대

대상 문자열에 대해 다음 문장을 고려하십시오.

새장에는 다양한 종류의 새가 있습니다.

누군가는 이 표적이 비둘기인지 공작인지 독수리인지 알고 싶어할 것입니다. 다음 코드를 사용할 수 있습니다.

NS='새장에는 다양한 종류의 공작이 있습니다.'
만약 [[ $ str=~ 비둘기|공작|독수리]];그 다음에
던졌다설립하다
또 다른
던졌다찾을 수 없음
~이다

출력은, 발견입니다. 교대 메타 문자, | 채용되었습니다. 2개, 3개, 4개 이상의 대안이 있을 수 있습니다. 이 코드에서 일치하는 것은 '공작'입니다.

그룹화

다음 패턴에서 괄호는 문자를 그룹화하는 데 사용되었습니다.

무대(댄서)

여기서 그룹은 메타 문자( 및 )로 둘러싸인 무대 댄서입니다. (댄서)는 하위 그룹이고 무대(댄서)는 전체 그룹입니다. 다음을 고려하세요:

(댄서가 굉장해)

여기에서 하위 그룹 또는 하위 문자열은 댄서가 굉장하다는 것입니다.

공통 부분이 있는 부분 문자열

이해 관계자는 비즈니스에 관심이 있는 사람입니다. 웹사이트 스테이크닷컴이 있는 비즈니스를 상상해 보십시오. 다음 대상 문자열 중 하나가 컴퓨터에 있다고 상상해 보십시오.

웹사이트, Stake.com은 비즈니스를 위한 것입니다.;

이해 관계자가 있습니다.;

이해 관계자는 스테이크닷컴에서 일합니다.

이 문자열 중 하나를 대상으로 설정합니다. 프로그래머는 스테이크.com 또는 이해 관계자가 대상 문자열에 있는지 알고 싶어할 수 있습니다. 그의 패턴은 다음과 같습니다.

스테이크닷컴|이해관계자

교대 사용.

스테이크는 두 단어로 두 번 입력되었습니다. 다음과 같이 패턴을 입력하여 이를 방지할 수 있습니다.

지분(.com|보유자)

.com|holder는 이 경우 하위 그룹입니다.

참고: 이 경우 대체 문자를 사용합니다. 스테이크닷컴 또는 이해관계자는 계속 검색됩니다. 다음 코드의 출력이 발견됩니다.

NS='stake.com 웹사이트는 비즈니스를 위한 것입니다.'
만약 [[ $ str=~ 지분(.와 함께|보유자) ]];그 다음에
던졌다설립하다
~이다

여기에 일치하는 하위 문자열은 스테이크.com입니다.

BASH_REMATCH 사전 정의된 배열

BASH_REMATCH는 미리 정의된 배열입니다. 패턴에 그룹이 있다고 가정합니다. 전체 그룹이 일치하면 이 배열의 인덱스 0에 대한 셀로 이동합니다. 일치하는 첫 번째 하위 그룹은 인덱스 1의 셀로 이동합니다. 일치하는 두 번째 하위 그룹은 인덱스 2의 셀로 이동하는 식으로 진행됩니다. 다음 코드는 이 배열을 사용하는 방법을 보여줍니다.

NS='무대가 왔다.'
만약 [[ $ str=~ 무대(춤추는 사람) ]];그 다음에
던졌다설립하다
~이다

~을위한NS~에 ${!BASH_REMATCH[@]};~하다
인쇄 '${BASH_REMATCH[i]}, '
완료
던졌다

출력은 다음과 같습니다.

설립하다
무대 댄서, 댄서,

그룹 전체가 무대 댄서입니다. 댄서라는 하위 그룹이 하나만 있습니다.

참고: 패턴의 공백은 이스케이프 처리되었습니다.

대소문자 독립성 매칭

위에서 설명한 대로 일치는 대소문자를 구분합니다. 매칭은 케이스와 독립적으로 수행될 수 있습니다. 이것은 다음 코드에 설명되어 있습니다.

상점 -NSnocasematch

NS='좋은 음악이 좋아요.'
만약 [[ $ str=~ 굿굿]];그 다음에
던졌다설립하다
~이다

상점 -유nocasematch

출력은 다음과 같습니다. 패턴은 Good입니다. 일치하는 하위 문자열은 '좋음'입니다. nocasematch 옵션이 코드 세그먼트의 시작 부분에서 활성화되고 코드 세그먼트의 끝에서 비활성화된 방법에 유의하십시오.

문자열의 길이

문자열의 길이를 구하는 구문은 다음과 같습니다.

${#PARAMETER}

예시:

NS='좋은 음악이 좋아요.'
던졌다 $ {# str}

출력은 19입니다.

문자열 감소

문자열 감소 구문은 다음과 같습니다.

${매개변수:오프셋}
${매개변수:오프셋:길이}

여기서 OFFSET에 대한 계산은 0부터 시작합니다.

다음 예는 문자열의 처음 11자를 제거하는 방법을 보여줍니다.

NS='항상 좋은 음악에 맞춰 춤을 춥니다.'
던졌다 $ {문자열: 10}

출력은 다음과 같습니다.

좋은 음악을 듣습니다.

LENGTH에 대한 계산은 다음 문자부터 시작됩니다. 다음 코드는 문자열 내의 일부를 허용할 수 있는 방법을 보여줍니다.

NS='항상 좋은 음악에 맞춰 춤을 춥니다.'
던졌다 $ {문자열: 10:6}

출력은 다음과 같습니다.

앤스 티

처음 11자는 제거되었습니다. 다음 6개의 문자가 허용되고 나머지 문자는 자동으로 제거됩니다.

검색 및 바꾸기

하위 문자열이 발견되면 다른 하위 문자열로 대체될 수 있습니다. 이에 대한 구문은 다음과 같습니다.

어디=${매개변수/패턴/교체}
어디=${PARAMETER//패턴/교체}
어디=${매개변수/패턴}
어디=${PARAMETER//패턴}

단일 슬래시가 있는 첫 번째 구문의 경우 첫 번째 일치 항목만 대체됩니다. 예시:

NS='방 안에는 쥐, 박쥐, 고양이가 있다.'
오른쪽=${str/[cbr]at/큰 소}
던졌다 $ str
던졌다 $ 렛

출력은 다음과 같습니다.

방에는 쥐, 박쥐, 고양이가 있습니다.
방 안에는 큰 소, 박쥐, 고양이가 있습니다.

이중 슬래시가 있는 두 번째 구문의 경우 일치하는 모든 항목이 대체됩니다. 예시:

NS='방 안에는 쥐, 박쥐, 고양이가 있다.'
오른쪽=${str//[cbr]at/큰 소}
던졌다 $ str
던졌다 $ 렛

출력은 다음과 같습니다.

방에는 쥐, 박쥐, 고양이가 있습니다.
방 안에는 큰 소, 큰 소, 큰 소가 있습니다.

단일 슬래시가 있는 세 번째 구문의 경우 첫 번째 유일한 일치 항목을 대체할 수 없습니다.

또한 발견된 첫 번째 부분 문자열이 삭제됩니다. 예시:

NS='방 안에는 쥐, 박쥐, 고양이가 있다.'
오른쪽=${str/[cbr]at}
던졌다 $ str
던졌다 $ 렛

이중 슬래시가 있는 네 번째 구문의 경우 모든 일치 항목을 대체할 수 없습니다. 또한 발견된 모든 하위 문자열이 삭제됩니다. 예시:

NS='방 안에는 쥐, 박쥐, 고양이가 있다.'
오른쪽=${str//[cbr]at}
던졌다 $ str
던졌다 $ 렛

출력은 다음과 같습니다.

방에는 쥐, 박쥐, 고양이가 있습니다.
챔버에는 , , , 가 있습니다.

결론

Bash에서 문자열에 부분 문자열이 있는지 확인하려면 패턴 일치를 사용해야 합니다. 패턴 매칭은 조건 이중 괄호 [[ . . . ]]. ${를 사용하여 매개변수 확장에서도 발생할 수 있습니다. . .}. 매개변수 확장을 사용하면 인덱스로 부분 문자열을 얻을 수 있습니다.

이 기사에서 제시한 것은 패턴 매칭에서 가장 중요한 포인트입니다. 더있다! 그러나 독자가 다음에 공부해야 할 것은 파일 이름 확장입니다.