긍정적 사고, 음식의 절제, 규칙적인 운동

2020/12/01

[python] Word Tokenization 단어 토큰화 2020.12.01
[python] matplotlib test 2020.12.01
[python] pandas 외부csv 파일 읽기 2020.12.01
'나중에'는 없다 2020.12.01

[python] Word Tokenization 단어 토큰화

홍반장水_ 2020. 12. 1. 15:17

2020. 12. 1. 15:17

Word Tokenization 단어 토큰화

자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. 이번 챕터에서는 그 중에서도 토큰화에 대해서 배우도록 합니다.

주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의합니다.

이 챕터에서는 토큰화에 대한 발생할 수 있는 여러가지 상황에 대해서 언급하여 토큰화에 대한 개념을 이해합니다. 뒤에서 파이썬과 NLTK 패키지, KoNLPY를 통해 실습을 진행하며 직접 토큰화를 수행해보겠습니다.


## word_tokenize는 Don't를 Do와 n't로 분리하였으며, 
## 반면 Jone's는 Jone과 's로 분리한 것을 확인할 수 있습니다.
>from nltk.tokenize import word_tokenize  
>print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  
['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']  


## WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기때문에, 앞서 확인했던
## word_tokenize와는 달리 Don't를 Don과 '와 t로 분리하였으며, 
## 이와 마찬가지로 Jone's를 Jone과 '와 s로 분리한 것을 확인할 수 있습니다.
>from nltk.tokenize import WordPunctTokenizer  
>print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']  


## 케라스 또한 토큰화 도구로서 text_to_word_sequence를 지원합니다. 이번에는 케라스로 토큰화를 수행해봅시다.
## 케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 온점이나 
## 컴마, 느낌표 등의 구두점을 제거합니다. 하지만 don't나 jone's와 같은 경우 아포스트로피는 보존하는 것을 볼 수 있습니다.
>from tensorflow.keras.preprocessing.text import text_to_word_sequence
>print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙에 대해서 소개하고, 토큰화의 결과를 보도록 하겠습니다.
## 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
## 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다. 
>from nltk.tokenize import TreebankWordTokenizer
>tokenizer=TreebankWordTokenizer()
>text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
>print(tokenizer.tokenize(text))
['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[Python] Jupyter 영화 리뷰 분류: 이진 분류 문제, 네이버 영화 리뷰 감성 분류 (0)	2020.12.02
[python] 한글 토큰화 (0)	2020.12.02
[python] matplotlib test (0)	2020.12.01
[python] pandas 외부csv 파일 읽기 (0)	2020.12.01
[python] Online python Compiler , 온라인 파이썬 컴파일러 (0)	2020.11.30

[python] matplotlib test

홍반장水_ 2020. 12. 1. 11:30

2020. 12. 1. 11:30

맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지입니다. 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용됩니다.

아나콘다를 설치하지 않았다면 아래의 커맨드로 Matplotlib를 별도 설치할 수 있습니다.

pip install matplotlib
> ipython
...
In [1]: import matplotlib as mpl
In [2]: mpl.__version__
Out[2]: '2.2.3'

Matplotlib을 다 설치하였다면 Matplotlib의 주요 모듈인 pyplot을 임포트할 수 있습니다. 해당 모듈을 임포트할 때는 주로 plt라는 이름으로 사용합니다. 또한 주피터 노트북으로 matplotlib을 실습하기 위해서는 주피터 노트북에 그림을 표시하도록 지정하는 %matplotlib inline 또한 우선 수행해야 합니다. 아래의 모든 실습들은 아래 내용을 임포트하였다고 가정합니다.

pyplot의 경우, 주로 plt라는 명칭으로 임포트하는 것이 관례입니다.

%matplotlib inline
import matplotlib.pyplot as plt

라인 플롯 그리기

plot()은 라인 플롯을 그리는 기능을 수행합니다. plot() X축과 Y축의 값을 기재하고 그림을 표시하는 show()를 통해서 시각화해봅시다. 그래프에는 제목을 지정해줄 수 있는데 이 경우에는 title('원하는 제목')을 사용합니다. 여기서는 그래프에 'test'라는 제목을 넣어봅시다.

사실 주피터 노트북에서는 show()를 사용하지 않더라도 그래프가 자동으로 렌더링 되므로 그래프가 시각화가 되는 것을 확인할 수 있지만, 여기서는 다른 개발 환경에서 사용할 때 또한 가정하여 show()를 실습 코드에 삽입하였습니다.

plt.title('students')
plt.plot([1,2,3,4],[2,4,8,6])
plt.plot([1.5,2.5,3.5,4.5],[3,5,8,10]) #라인 새로 추가
plt.xlabel('hours')
plt.ylabel('score')
plt.legend(['A student', 'B student']) #범례 삽입
plt.show()

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] 한글 토큰화 (0)	2020.12.02
[python] Word Tokenization 단어 토큰화 (0)	2020.12.01
[python] pandas 외부csv 파일 읽기 (0)	2020.12.01
[python] Online python Compiler , 온라인 파이썬 컴파일러 (0)	2020.11.30
python, pandas, numpy, Matplotlib (0)	2020.11.27

[python] pandas 외부csv 파일 읽기

홍반장水_ 2020. 12. 1. 11:20

2020. 12. 1. 11:20

외부 데이터 읽기

Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있습니다.

예를 들어 csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있습니다.
다음과 같은 example.csv 파일이 있다고 합시다.

df=pd.read_csv('example.csv 파일의 경로') # example.csv 파일 읽기
# 예를 들어 윈도우 바탕화면에서 작업한 저자의 경우
# df=pd.read_csv(r'C:\Users\USER\Desktop\example.csv')였습니다.
print(df)

이 경우 인덱스가 자동으로 부여된 것을 볼 수 있습니다. 인덱스를 출력해보도록 하겠습니다.

> print(df.index)
RangeIndex(start=0, stop=6, step=1)

저작자표시 비영리

'프로그래밍 > Python' 카테고리의 다른 글

[python] Word Tokenization 단어 토큰화 (0)	2020.12.01
[python] matplotlib test (0)	2020.12.01
[python] Online python Compiler , 온라인 파이썬 컴파일러 (0)	2020.11.30
python, pandas, numpy, Matplotlib (0)	2020.11.27
[python] pandas 설치 후 import 했는데 오류날때 (0)	2020.11.26

'나중에'는 없다

홍반장水_ 2020. 12. 1. 08:52

2020. 12. 1. 08:52

"나중에"
"나중에 한번 보자"라고 말하며 전화를 끊었다.
그래서 한번 볼 날을 기대했다.
그러나 한번 볼 날이 없었다.

그렇게 "나중에"는 없었다.
오로지 "지금"만 있을 뿐

- 박영신의《옹달샘에 던져보는 작은 질문들》중에서 -

* 너무 쉽게
흔히 하는 말이 있습니다.
"나중에 보자", "나중에 하자"
그러고는 끝입니다.
'나중에'는 없습니다.

저작자표시 비영리

'생활의 발견 > 아침편지' 카테고리의 다른 글

황제펭귄 (0)	2020.12.03
누가 더 행복할까? (0)	2020.12.02
아이들이 번쩍 깨달은 것 (0)	2020.11.30
길을 잃으면 길이 찾아온다 (0)	2020.11.30
절대 잊을 수 없는 날 (0)	2020.11.27

PREV 이전 1 NEXT 다음

긍정적 사고, 음식의 절제, 규칙적인 운동

2020/12/01

[python] Word Tokenization 단어 토큰화

'프로그래밍 > Python' 카테고리의 다른 글

[python] matplotlib test

라인 플롯 그리기

'프로그래밍 > Python' 카테고리의 다른 글

[python] pandas 외부csv 파일 읽기

외부 데이터 읽기

'프로그래밍 > Python' 카테고리의 다른 글

'나중에'는 없다

'생활의 발견 > 아침편지' 카테고리의 다른 글

+ Recent posts

티스토리툴바