다른 날에 나는 "Shirakawa font"가 특정 무료 온라인 대학 과정뉴토끼 공식 트위터 무료로 제공되고 있음을 알게되었습니다
이것은 구강 날과 금 소설과 같은 고대 인물을위한 것이며 현대 간지에 들어가는 것처럼 고대 캐릭터에 들어가기가 쉽습니다 ' (인용하다:Shirakawa font)다시 말해서, 외부 문자보다는 해당 현대 칸지와 동일한 문자 코드가 사용된다고합니다
나는 또한 뉴토끼 공식 트위터을 연구하고 있었기 때문에이 글꼴로 작성된 문자열을 읽고 싶었습니다 글꼴에 제공된 문자가 외부가 아닌 경우, Oralbone 글꼴의 문자가인정잘 작동하면 Oracle Bone 문자를 현재 문자로 변환 할 수 있어야합니다
So,오픈 소스 "TesserAct"를 사용하여 뉴토끼 공식 트위터의 기본 처리를 시험해 볼 것입니다!
<구현 환경
- 러닝 머신 : Windows 10 Pro 64 비트
- 사용 된 주요 소프트웨어/라이브러리 : Tesseract, Py뉴토끼 공식 트위터, JtessboxEditor
- 언어 : Python 36 (Anaconda)
<진행 방법
- 데이터 준비
- 실행 환경 준비
- 인식 결과 확인 (① : 기본 상태뉴토끼 공식 트위터 인식 결과)
-
TesserAct 배우기
- 인식 결과 확인 (② : 학습 상태뉴토끼 공식 트위터 인식 결과)
목차
데이터 준비
먼저 뉴토끼 공식 트위터을 인식하려는 이미지준비가 진행 중입니다
(사용될 글꼴은 아래에 설치되어 있지만 이미지를 만들뿐만 아니라 아래에 설명 된대로 학습에도 필요합니다)
뉴토끼 공식 트위터;Shirakawa font뉴토끼 공식 트위터;설치
- 먼저 아래 사이트로 이동하여 글꼴을 다운로드하십시오
(이번에는 뉴토끼 공식 트위터;Shirakawa Koukotsu뉴토끼 공식 트위터;( 뉴토끼 공식 트위터;Shirakawa koukotsu_v103ttf뉴토끼 공식 트위터;)를 사용할 것입니다
http : //wwwdlisritsumeiacjp/shirakawa/search/? #downloads - 글꼴을 설치하십시오
- 다운로드 한 경우 파일을 두 번 클릭 한 다음
열린 창 위의 설치를 클릭하십시오
- 다운로드 한 경우 파일을 두 번 클릭 한 다음
뉴토끼 공식 트위터;Shirakawa font뉴토끼 공식 트위터;로 작성된 텍스트가 포함 된 이미지 준비
- 페인트 시작
- 뉴토끼 공식 트위터;Shirakawa Gallery뉴토끼 공식 트위터;를 글꼴로 지정하고 아래 그림과 같이 문자를 입력하십시오
(당신은 뉴토끼 공식 트위터;Yamakawa Yoko, Good Morning뉴토끼 공식 트위터;에 들어가고 있습니다)
- 위를 PNG로 저장하십시오
실행 환경 준비
Pyocr을 사용하여 Python뉴토끼 공식 트위터 사용하기 위해 OCR 및 환경을 실행하는 데 필요한 TesserAct 준비
TesserAct 설치
TesserAct는 오픈 소스 뉴토끼 공식 트위터입니다
원래 영어를 처리하도록 설계된 것으로 보이지만 독일의 Mannheim University뉴토끼 공식 트위터 게시 한 Windows 환경의 설치 프로그램에는 교육 도구 외에 일본 교육 데이터도 포함되어 있습니다내가 여기그래서 이번에는 이것을 사용하겠습니다
- 12830_12884
https : //githubcom/ub-mannheim/tesseract/wiki
- 설치 프로그램을 실행하고 마법사를 따라 설치를 수행하십시오
- 참고 :
- "추가 언어 데이터 (다운로드)뉴토끼 공식 트위터"일본어 "를 선택하십시오
- 나중에 환경 변수에 추가 할 때이 설치 폴더를 기억하십시오
- "추가 언어 데이터 (다운로드)뉴토끼 공식 트위터"일본어 "를 선택하십시오
- 참고 :
- 환경 변수 뉴토끼 공식 트위터;경로뉴토끼 공식 트위터;에 위의 경로를 추가하십시오
Py뉴토끼 공식 트위터
Py뉴토끼 공식 트위터은 Python이 다른 뉴토끼 공식 트위터 도구를 사용할 래퍼입니다
이번에는이 py뉴토끼 공식 트위터oc를 통해 Python의 TesserAct를 사용할 것입니다
-
설치는 아래 명령을 사용하여 수행됩니다
1PIPinstallPy뉴토끼 공식 트위터
인식 결과 확인 (① : 기본 상태뉴토끼 공식 트위터 인식 결과)
뉴토끼 공식 트위터의 실행 환경이 준비되었으므로 기본 상태에두고 인식 결과를 확인해 봅시다
- 인식 결과
나는 일본어를 인식 할 수 있지만 Oracle Bone 특성을 제대로 인식 할 수는 없습니다- 언어 사용 : 설치 중에 추가 된 일본 교육 데이터
*Tessaract에 의해 인식 된 단어 (= 그림의 빨간색 프레임) 및
인식 결과 (= 다이어그램 상단의 문자열 출력)
- 언어 사용 : 설치 중에 추가 된 일본 교육 데이터
-
소스 코드
*Jupyter 노트북으로 실행 된 코드1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556# 코딩 : UTF-8# in [1] :From pil가져 오기 이미지가져 오기 Py뉴토끼 공식 트위터가져 오기 CV2가져 오기 ipython.Displayas Display# in [2] :# 뉴토끼 공식 트위터 도구 지정 ( "TesserAct"는 [0]에 저장되었습니다)도구 = Py뉴토끼 공식 트위터.get_available_tools()도구 = 도구[0]# 해당 뉴토끼 공식 트위터 도구에 사용 가능한 언어를 확인하십시오Langs = 도구.get_available_languages()# 일본어 지정 (일본 교육 데이터 뉴토끼 공식 트위터;JPN뉴토끼 공식 트위터;이 [1])에 포함되었습니다lang_setting = Langs[1]# in [3] :# 함수 : Jupyter 노트북에 OpenCV 이미지 표시def display_cv_image(이미지, 형식='png'):decoded_bytes = CV2.Imencode(형식, 이미지)[1].토비 테스()Display.Display(Display.이미지(데이터=decoded_bytes))# in [4] :# 이미지 인식sample_image_file = 뉴토끼 공식 트위터;test_imagepng뉴토끼 공식 트위터;with 이미지.Open(sample_image_file) as IM1:# Builder 설정Builder = Py뉴토끼 공식 트위터.빌더.LineboxBuilder(TesserAct_Layout=6)# 텍스트 추출물RES = 도구.image_to_string(IM1,Lang=lang_setting,# 언어 지정Builder=Builder)# 인식 범위Out = CV2.imread(sample_image_file)for d in RES:인쇄(d.컨텐츠)print(d.위치)CV2.사각형(out, d.위치[0], d.위치[1], (0, 0, 255), 2)display_cv_image(out)
TesserAct 배우기
기본값에 떠날 때 제대로 인식 할 수 없었으므로 학습을 할 것입니다
먼저 학습에 필요한 도구 뉴토끼 공식 트위터;jtessboxeditor뉴토끼 공식 트위터;를 준비하십시오
JTESSBOXEDITOR 설치
TesserAct에 대한 교육 데이터를 작성하는 도구 인 JTESSBOXEDITOR를 설치합니다
설치 방법
- 다음뉴토끼 공식 트위터 zip 파일 "jtessboxeditor-20zip"을 다운로드하십시오
https : //sourceforgenet/projects/viet뉴토끼 공식 트위터/files/jtessboxeditor/ - 위의 zip 파일을 적절한 폴더로 압축합니다
시작 방법
-
jtessboxeditorjar를 두 번 클릭하거나 아래 명령으로 시작하십시오
1Java -XMS128M -XMX1024M -JARJTESSBOXEDITOR.JAR*JRE8 이상이 실행하려면 필요합니다
교육 데이터 만들기
ItessboxEditor를 사용하여 교육 데이터를 만듭니다
- 뉴토끼 공식 트위터;tif뉴토끼 공식 트위터;파일, 뉴토끼 공식 트위터;box뉴토끼 공식 트위터;파일 및 뉴토끼 공식 트위터;font_properties뉴토끼 공식 트위터;파일을 만듭니다
- ItessboxEditor를 시작하고 뉴토끼 공식 트위터;TIFF/Box Generator뉴토끼 공식 트위터;탭을 엽니 다
- 위 다이어그램 (1)뉴토끼 공식 트위터 배운 언어를 나타내는 알파벳 문자를 입력하십시오 (영어 편지를 직접 결정할 것입니다 이번에는 "SRK"를 사용할 것입니다)
- 위의 다이어그램 (2)을 클릭하여 아래 다이어그램에 표시된 창을 표시하려면 뉴토끼 공식 트위터;Shirakawa Font뉴토끼 공식 트위터;를 지정하십시오
- 위의 다이어그램 (3)에 배우고 싶은 문자를 입력하십시오
아래 예뉴토끼 공식 트위터 "Yamakawa Yoko"를 입력합니다
- 뉴토끼 공식 트위터;생성뉴토끼 공식 트위터;버튼을 클릭하여 프로세스를 실행하십시오
*뉴토끼 공식 트위터;생성뉴토끼 공식 트위터;버튼이 화면 크기에 맞지 않고 아래 이미지에 표시된 것처럼 표시 할 수없는 경우,
ItessboxEditor 창 외부의 다이어그램뉴토끼 공식 트위터 빨간색으로 둘러싸인 영역을 창으로 연결하지 않습니다
↓
*실행 중에 뉴토끼 공식 트위터;javalnagnullpointerexception뉴토끼 공식 트위터;오류가 표시되었지만 글꼴 크기를 늘리거나 ItessboxEditor를 다시 시작하면 오류가 해결되었습니다
- 성공적인 처리 후 다음 파일이 생성됩니다
*출력 대상은 뉴토끼 공식 트위터;출력뉴토끼 공식 트위터;열의 폴더가됩니다- SRKShirakawa 콜라주 블레이드 exp0box
- SRKShirakawa 콜라주 블레이드exp0tif
- SRKShirakawa galleryfont_properties
- ItessboxEditor를 시작하고 뉴토끼 공식 트위터;TIFF/Box Generator뉴토끼 공식 트위터;탭을 엽니 다
-
뉴토끼 공식 트위터;word_list뉴토끼 공식 트위터;파일과 뉴토끼 공식 트위터;Eleberent_word_list뉴토끼 공식 트위터;파일을 만듭니다
-
내용을 비워두고 파일 이름은 다음과 같아야합니다
(※ 뉴토끼 공식 트위터;SRK뉴토끼 공식 트위터;는 이전 단계에 지정된 모든 문자열입니다)- SRKwords_list
- SRKfrequent_words_list
-
- 위에 만든 5 개의 파일의 폴더를 생성하고 저장하십시오
학습 수행
이제 교육 데이터가 완료되었으므로 학습을 시작할 것입니다
- ItessboxEditor를 시작하고 뉴토끼 공식 트위터;트레이너뉴토끼 공식 트위터;탭을 엽니 다
- 다음을 입력하십시오 :
- Traininig Data (1) : 위에 생성 된 뉴토끼 공식 트위터;srkshirakawa galleryexp0box뉴토끼 공식 트위터;파일을 선택하십시오
- 언어 (2) : 뉴토끼 공식 트위터;SKR뉴토끼 공식 트위터;을 입력하십시오
- 훈련 모드 (3) : 뉴토끼 공식 트위터;기존 상자를 사용하여 훈련뉴토끼 공식 트위터;을 선택하십시오
- 입력이 완료된 후 뉴토끼 공식 트위터;run (4)뉴토끼 공식 트위터;버튼을 클릭하여 프로세스를 실행하십시오
- 뉴토끼 공식 트위터;** 이동 된 훈련 된 데이터 파일을 TessData 폴더 ** (라인 브레이크) ** 훈련 완료 **가 나타나면 완료되었습니다
- A 뉴토끼 공식 트위터;TessData뉴토끼 공식 트위터;폴더는 뉴토끼 공식 트위터;Traininig Data뉴토끼 공식 트위터;에 지정된 파일이 위의 입력에 포함 된 폴더에 생성되고
훈련 된 데이터 뉴토끼 공식 트위터;srktrainedData뉴토끼 공식 트위터;가 생성되었습니다
- 다음을 입력하십시오 :
- 훈련 된 데이터를 TesserAct의 환경에 복사합니다
- 예제) C : \ Users \ (사용자 이름) \ appData \ local \ TessSdata
인식 결과 확인 (② : 학습 상태뉴토끼 공식 트위터 인식 결과)
학습 후 결과를 적용 할 수 있으므로 인식 결과가 무엇인지 살펴 보겠습니다
-
인식 결과
이번에는 여러 유형의 교육 데이터를 만들었습니다 각각의 결과는 다음과 같습니다*1뉴토끼 공식 트위터;학습 데이터뉴토끼 공식 트위터;:
위의 도구 뉴토끼 공식 트위터;itessboxEditor뉴토끼 공식 트위터;를 사용하여 뉴토끼 공식 트위터;박스뉴토끼 공식 트위터;파일 등을 만들 때 입력 한 문자열을 나타냅니다
*2글꼴에 포함 된 문자의 출력 정보 :
자세한 처리 세부 사항을 생략하지만 Python 라이브러리 뉴토끼 공식 트위터;FontTools뉴토끼 공식 트위터;를 사용하여 글꼴 데이터를 XML로 변환하여 추출했습니다
*3다이어그램의 빨간색 프레임은 TesserAct로 인식되는 영역입니다다이어그램 상단의 문자열 출력은 인식의 결과입니다언어 사용학습 데이터*1인식 결과인식 결과 (이미지)*31 일본어
+
학습 데이터 배우기문자열 뉴토끼 공식 트위터;Yamakawa Yoko뉴토끼 공식 트위터; 일본인 만 인정 받고 있습니다 2 일본어
+
학습 데이터 배우기시라 카와 뼈 뼈 텍스트 글꼴에 포함 된 약 600 개 조각문자 목록
(한 줄로 내보내기)*2Yamakawa가 인정되었습니다! 3 일본어
+
학습 데이터 배우기약 600 자의 목록, 거의 모든 시라카와 코바야시 글꼴 목록
(각 문자에 대한 선이 나산)*2Yamakawa가 인정되었습니다! 4 일본어
+
학습 데이터 배우기약 600 자의 목록, 거의 모든 시라 카와 뼈 뼈 문자 글꼴
(각 캐릭터에 대한 줄이 끊어지고 5 번 반복)*2모두 인식되었습니다! -
소스 코드
이번에는 여러 유형의 교육 데이터를 사용하여 결과를 확인했습니다 교육 데이터를 준비 할 때 뉴토끼 공식 트위터;도구 get_available_languages ()뉴토끼 공식 트위터;를 사용하여 얻은 결과는 해당 금액만큼 증가합니다 이것은 언어를 뉴토끼 공식 트위터;+뉴토끼 공식 트위터;와 결합한 문자열로 설정하여 적용됩니다*Jupyter Notebook뉴토끼 공식 트위터 실행을위한 코드
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657# 코딩 : UTF-8# in [1] :From PIL가져 오기 이미지가져 오기 Py뉴토끼 공식 트위터가져 오기 CV2가져 오기 ipython.Displayas Display# in [2] :# 뉴토끼 공식 트위터 도구 지정 ( "TesserAct"는 [0]에 저장되었습니다)도구 = Py뉴토끼 공식 트위터.get_available_tools()도구 = 도구[0]# 해당 뉴토끼 공식 트위터 도구에 사용 가능한 언어를 확인하십시오Langs = 도구.get_available_languages()# 언어로 일본어 및 현재 학습 된 데이터를 지정lang_setting = Langs[1]+뉴토끼 공식 트위터;+뉴토끼 공식 트위터;+Langs[5]# in [3] :# 함수 : Jupyter 노트북뉴토끼 공식 트위터 OpenCV 이미지 표시 인라인def display_cv_image(이미지, 형식='png'):decoded_bytes = CV2.Imencode(형식, 이미지)[1].토비 테스()Display.Display(Display.이미지(데이터=decoded_bytes))# in [4] :인쇄(lang_setting)# 이미지 인식sample_image_file = 뉴토끼 공식 트위터;test_imagepng뉴토끼 공식 트위터;with 이미지.Open(sample_image_file) as IM1:# Builder 설정Builder = Py뉴토끼 공식 트위터.빌더.LineboxBuilder(TesserAct_Layout=6)# 텍스트 추출물RES = 도구.image_to_string(IM1,Lang=lang_setting,# 언어 지정Builder=Builder)# 인식 범위out = CV2.imread(sample_image_file)for d in res:인쇄(d.컨텐츠)print(d.위치)CV2.사각형(out, d.위치[0], d.위치[1], (0, 0, 255), 2)# 빨간색 프레임 드로우display_cv_image(out)
요약
실제로 알 수 있듯이, 이번에는 이번에는 이미지의 첫 번째 줄과 두 번째 줄 사이에 공간을 만들었습니다 인식 정확도를 향상 시키려면 이미지 자체의 데이터를 사전 처리하고 학습 전에 런타임뉴토끼 공식 트위터 매개 변수 설정을 확인해야합니다 이러한 항목과 관련된 콘텐츠는 다음 웹 사이트뉴토끼 공식 트위터 제공되므로 관심이 있으시면 참조하십시오
또한 이번에 사용한 TesserAct 버전은 305이지만 현재 베타 버전 4는 뉴토끼 공식 트위터;LSTM 엔진뉴토끼 공식 트위터;을 사용하므로 결과가 무엇인지 기대하고 있습니다
저자 프로필

- TDI 디지털 혁신 기술 부서
- 회사에 합류 한 이후 C/S 유형 비즈니스 시스템 개발에 참여했습니다 지난 몇 년 동안 저는 Salsforce 및 Outsystems와 같은 제품과 Scrum Development 방법과 같은 제품을 연구 해 왔으며 현재 테마는 Deeplearning/Machine Learning입니다
이 저자의 최신 기사
픽업!2021 년 11 월 11 일나는 여러 사람과 함께 Vott를 사용하여 주석을 달고 싶습니다! (뉴토끼 325 마이그레이션
픽업!2020 년 11 월 20 일AIOT 장치 뉴토끼 공식 트위터;M5STICV뉴토끼 공식 트위터;, HAJIME NO IPPO
RPA2019 년 8 월 15 일뉴토끼 공식 트위터;OSS RPA뉴토끼 공식 트위터; + 뉴토끼 공식 트위터;Homemade Tic-Toe Machine뉴토끼 공식 트위터;으로 Google을 사용하십시오!
ai2019 년 4 월 22 일rote 뉴토끼 167 Tic-toe를