Action Classification -1
Task
왜 CT 이미지가 아니라, CT 비디오일까?
나의 생각 : 단지 CT 1장의 사진으로 질병을 판단할 수 있는 것이 아니다. 폐의 창상, 가슴막, 기도, 양쪽 폐사이의 종격막, 혈관, 심장, 부드러운 조직, 뼈 등 각 관점에서 보아야 하는 종합적인 시각이 필요하기 때문에, 여러장이 필요한 것이다. 하지만, 특정 질병은, 단 몇 프레임으로 판단 가능하긴 하다. (참고 : https://www.youtube.com/watch?v=rfv85Wp4nNo)
Spatial & Temporal Feature
본 데이터는 Temporal한 Feature와 관련이 있을까?
나의 생각 : CT가 여러장으로 3차원을 만드는 것이지, 시간의 흐름과 관련이 없다.
나의 가설 : 시간의 특징을 잘 뽑으려는 기법들보다 CT 1장 1장의 공간적의 특징을 잘 추출해주는 기법들이 더 중요할 것으로 보인다. 따라서, 시도해보고 싶은 아이디어 정리 ! (기존 성능은 88.6% )
모델 | 설명 | 생각하는 정확도 수준 | 날짜 |
C3D(3nets+linear SVM) | 채널의 깊이를 조절에 가면서 정확도 상승 포인트 찾기/deconvolution해보기 /linear SVM, softmax 비교 / 처음에 하기 가장 쉬워보임. | 85 | ~12/7 |
내생각 | 각각의 이미지에 다른 커널을 적용하여, 컨볼루션에서 합치지 않고, FC Layer까지 가는 모델 | 비교적높음 | ~12/14 |
LRCN | 이미지 장당 cnn을 해서 좋게 봄. | 높음 | |
Two stream | 장당이랑 시간이랑 같이 고려해서 좋게 봄 | 높음 | ~12/28 |
CT 데이터 정의
Data 에 대한 정의 : 이 프로젝트에서 다루는 CT 데이터는 아래 3가지 항목에 속하지 않는다. 본 데이터는 Height * Width * CT장수 이다. multiple image frames..?
흑백 이미지 : Height * Width
2D conv 사용
RGB 이미지 : Height * Width * channel (color)
2D conv on multiple frames 사용
RGB 비디오 : Height * Width * channel (color) * time
3D conv 사용 -> 3*3*3 필터가 가장 좋은 성능을 보였다. RGB채널이 3채널이기 때문에 3으로 둔것이 가장 좋은 성능을 보인 것 같다.
Video Classification 계보 요약
선형분류기 선택 : http://aikorea.org/cs231n/linear-classify/
Action Recognition 계보 영상 : https://slideplayer.com/slide/3532039/
C3D코드 : https://github.com/facebookarchive/C3D
콘볼루션 MXNET 구현 : https://d2l.ai/chapter_convolutional-neural-networks/channels.html
Last updated