포옹 얼굴 Filter() 메서드

Poong Eolgul Filter Meseodeu



Hugging Face에는 여러 자연어 처리(NLP) 모델과 데이터 세트가 있습니다. 이러한 거대한 데이터 세트에는 모델을 정확하게 훈련하는 데 도움이 되는 많은 정보가 포함되어 있습니다. 그러나 현재 요구 사항을 충족하기 위해 전체 데이터 세트의 일부만 필요하기 때문에 전체 데이터 세트가 필요하지 않은 경우도 있습니다. 모든 정보가 포함된 평소와 동일한 데이터 세트를 사용하려는 경우 모델 교육 및 최적화에 많은 시간이 소요되므로 시간 낭비입니다.

따라서 데이터 세트에서 관련 정보를 추출할 수 있는 일종의 방법이나 패키지가 필요합니다. 간단히 말해서 요구 사항에 따라 데이터 세트를 필터링하려면 추가 필터 옵션이 필요하다고 말할 수 있습니다.

Hugging Face는 사용자가 특정 조건을 충족하는 예나 정보만 포함하는 맞춤형 데이터세트를 생성하는 데 도움이 되는 데이터세트를 필터링하는 다양한 옵션을 제공합니다.







Select() 메서드

이 방법은 인덱스 목록에서 작동하며 이는 목록을 정의해야 함을 의미합니다. 해당 목록 안에는 추출하려는 모든 행의 인덱스 값을 언급해야 합니다. 하지만 이 방법은 GB(기가바이트) 또는 TB(테라바이트) 단위인 경우 전체 데이터세트를 볼 수 없기 때문에 작은 데이터세트에만 작동하고 대규모 데이터세트에는 작동하지 않습니다.



:

new_dataset = 데이터세트. 선택하다 ( [ 0 , 열하나 , 이십 일 , 넷 다섯 , 오십 , 55 ] )

인쇄 ( 오직 ( new_dataset ) )

이 예에서는 'select' 메서드를 사용하여 데이터세트에서 필요한 정보를 필터링했습니다.



Filter() 메서드

filter() 메서드는 특정 조건이 없으므로 select() 프로세스 문제를 극복합니다. filter() 메서드는 특정 상황이나 조건과 일치하는 모든 행을 반환합니다.





예: 이 Python 프로그램을 'test.py' 이름으로 저장합니다.

~에서 데이터세트 수입 로드_데이터세트

# 1단계: 데이터세트 로드
데이터세트 = 로드_데이터세트 ( 'imdb' )

# 2단계: 필터링 기능 정의
데프 맞춤_필터 ( ) :
'''
긍정적인 사례를 유지하는 사용자 정의 필터링 기능
감정(라벨 == 1).
'''

반품 [ '상표' ] == 1

# 3단계: 필터를 적용하여 필터링된 새 데이터세트 만들기
필터링된_데이터세트 = 데이터세트. 필터 ( 맞춤_필터 )

# 4단계: 필터링된 데이터세트에서 사용 가능한 열 이름을 확인합니다.
인쇄 ( '필터링된 데이터세트에서 사용 가능한 열:' ,
필터링된_데이터세트. 열_이름 )

# 5단계: 필터링된 데이터세트의 정보에 액세스
필터링_예 = 필터링된_데이터세트 [ '기차' ]
num_filtered_examples = 오직 ( 필터링_예 )

# 6단계: 필터링된 예시의 총 개수를 출력합니다.
인쇄 ( '필터링된 총 예:' , num_filtered_examples )

산출:

설명:

1행: 데이터세트에서 필수 load_dataset 패키지를 가져옵니다.

4행: load_dataset를 사용하여 'imdb' 데이터 세트를 로드합니다.

7~12행: 사용자 정의 필터링 기능을 정의합니다. 맞춤_필터 긍정적인 감정으로 예시를 유지합니다(라벨 == 1). 이 함수는 레이블 값이 1인 행만 반환합니다.

15행: 이 행은 데이터 세트에 'imdb' 영화 리뷰 데이터가 있음을 보여줍니다. 이제 이 데이터베이스에 필터 기능을 적용하여 'filtered_dataset'에 추가로 저장된 데이터베이스에서 긍정적인 리뷰를 분리합니다.

18행과 19행: 이제filtered_dataset에서 어떤 열 이름을 사용할 수 있는지 확인합니다. 따라서 'filtered_dataset.column_names' 코드는 요구 사항에 대한 세부 정보를 제공합니다.

22행과 23행: 이 줄에서는filtered_dataset의 'train' 열을 필터링하고 train 열의 총 개수(길이)를 인쇄합니다.

26행: 이 마지막 행에서는 23행의 결과를 인쇄합니다.

인덱스가 있는 Filter()

filter() 메소드는 select() 모드에서 볼 수 있듯이 인덱스와 함께 사용할 수도 있습니다. 하지만 이를 위해서는 다음 예제와 같이 'with_indices=true' 키워드가 filter() 메서드 외부에 지정되어야 한다는 점을 언급해야 합니다.

홀수_데이터세트 = 데이터 세트. 필터 ( 람다 , idx: idx % 2 != 0 , with_indices = 진실 )

인쇄 ( 오직 ( 홀수_데이터세트 ) )

이 예에서는 filter() 메서드를 사용하여 홀수 행만 포함하여 데이터세트에서 필요한 정보를 필터링했습니다.

filter() 메서드의 각 매개변수에 대한 자세한 내용은 여기에서 확인할 수 있습니다. 링크 .

결론

Hugging Face 데이터 세트 라이브러리는 특히 NLP(자연어 처리) 및 기계 학습 작업의 맥락에서 다양한 데이터 세트를 효율적으로 사용할 수 있는 강력하고 사용자 친화적인 도구 세트를 제공합니다. 프로그램에 제시된 filter() 기능을 사용하면 연구자와 실무자는 사용자 정의 필터링 기준을 정의하여 관련 데이터 하위 집합을 추출할 수 있습니다. 이 기능을 사용하면 사용자는 영화 리뷰에서 긍정적인 감정을 유지하거나 특정 텍스트 데이터를 추출하는 등 특정 조건을 충족하는 새로운 데이터 세트를 쉽게 생성할 수 있습니다.

이 단계별 데모에서는 데이터 세트를 로드하고, 사용자 정의 필터 기능을 적용하고, 필터링된 데이터에 액세스하는 것이 얼마나 쉬운지 보여줍니다. 또한 함수 매개변수의 유연성을 통해 대규모 데이터 세트에 대한 다중 처리 지원을 포함하여 사용자 정의 필터링 작업이 가능합니다. Hugging Face 데이터세트 라이브러리를 사용하면 사용자는 데이터를 간소화할 수 있습니다.