převod jpg do txt
Hledám nějaký software,který mi převede dokument s koncovkou jpg do txt..Chci totiž text upravovat ve Wordu,ale s koncovkou jpg to nejde..Děkuji
Hledám nějaký software,který mi převede dokument s koncovkou jpg do txt..Chci totiž text upravovat ve Wordu,ale s koncovkou jpg to nejde..Děkuji
Zpět do poradny Odpovědět na původní otázku Nahoru
Můžu se zeptat, co tam chceš upravovat za text? jpg je formát pro obrázek. Jestli máš text v jpg, použij na jeho úpravu nějaký grafický editor, třeba PhotoFiltre.
Windows, Linux - například.
Potřebuješ OCR software. Nejlepší je ABBYY FineReader
finereaderpro
Nemušíš instalovat software, na to stačí online služba:
ascii.php
EDIT: pardon, přehlídl jsem, že v tom jpg má být text. Na to potřebuješ OCR (viz Kráťa).
Já už se u notifikačního e-mailu lekl, že OCR někdo poskytuje on-line, tak sem rychle běžím a on je tu edit://...
Pro tazatelku. Pokud jde jen o nějaký nápis (ne třeba oskenovaný dokument), je na to lepší, co píšou kolegové nade mnou (editor na obrázky).
www.free-ocr.com
Díky 586x. Převedlo to bezchybně i veškerou diakritiku. To nemá chybu!
A dost obstojně to vzalo i útok internetem
Tak to je ale dokonalý.
A o té stránce se hodí vědět, převádí moc dobře.
haf,haf - nevim jak jsi k tomu souboru přišel/a a jestli jsi to mohl/a ovlivnit, ale pokud to jde, snaž se použít bezztrátovou kompresy pro takovéto obrázky z textem - tedy BMP ci RAW
přitakal bych.
pokud to skenuju a dopředu počítám, že budu potřebovat zpět vyrazit psaná data, nikdy nepoužiju "fotoformát" .jpg se ztrátovou kompresí, ale dám přednost obrázku s případnou bezeztrátovou kompresí (.gif, .png), ve stupních šedi, 16-64 "barev", cca 100dpi pro snímání.
protože ocr softy často pochází z anglo-us a mají nejlepší účinnost na omezenější znakovou sadu bez nabodeníčků, háčků, kroužků atd., snažil bych se jim lehce vyjít vstříc. jak rozumným bezztrátovým formátem image předlohy, tak zároveň slušným kontrastem (především volba zaostření pro zvýraznění kontur, dále gamma a kontrast, a je rozumné omezit barevnou hloubku textu na max.64-128 barev)
Kráťa - musím říci, že v poslední době zapracovala i Recognita a nejlepší software založený na tomto enginu dosahuje stejné přesnosti rozpoznání jako Finereader - Omnipage 16.
AZOR - no o BMP bych se az zase tak nezminoval. Kdyz tak RAW nebo TIFF. Jinak ale neni problem ani s JPEG, ale musi mit nalezite parametry, komprese na minimalně 85% nekomprimovaneho.
JPG je bitmapový obrázek, tudíž když to otevřeš a je tam text nebo třeba nějaká krásná děva, tak pro ten soft je to prostě vždycky obrázek. Úprava teda v bitmapovém editoru, ale samozřejmě nikoliv, že by si psal znaky na klávesnici, ale kreslíš jiné obrázky, třeba v podobě znaků.
Druhá možnost je to co ti radí Kráťa, použít OCR software a převést bitmapu na znaky. To pracuje tak, že když máš v tom JPG nakreslené písmeno K, tak ono to srovnává s nějakým vzorem a zjistí, že se to podobá K, tak do textového editoru napíše K. Z toho je jasný, že téměř nikdy nedosáhneš stoprocentního přepsání, občas to nějaký znak nepozná. U slušného kontrastního obrázku se dosahuje správnosti nad 95%. Aby si ji dosáhl, musíš splnit nějaké podmínky, např. jak tu bylo už zmíněno, obrázek nesmí být příliš komprimovaný nebo např. by měl mít rozlišení 300 dpi a vyšší - podle velikosti písmen.
cus chci nejakej program co mi prevede jpeg z PC do wordu... potrebuju si oskenovany text upravit a ty online verze mi nefungujou ci co.... dik...
Třeba ABBYY Fine Reader. Ale formát JPG není zrovna ideální pro rozpoznávání textu.
Proč není JPG ok pro rozpoznávání textu? Komprese? Nebo v čom je problém?
Neřekl bych, že jpg je nevhodný, ale faktem je, že se jedná o jeden z nejméně vhodných formátů.
Důvodem je způsob, jakým pracuje jpg - ukládá podobné barvy do oblasti pod stejnou barvou a toto není pro detekční analýzu příhodné.
Nejlepší formát je BMP nebo PNG (pomiňme teď vlastní velikosti).
Zlepšit vlastnosti jpg pro textovou analýzu je možné zvětšením rozlišení a snížením komprese.
Takže abych tomu rozuměl, OCR má u jpg problém rozpoznat kontury textu a potom logicky má problém i s rozpoznáváním textu? Tak to bylo myšleno?
OCR zna dalo by se rici jen dve barvy, cernou a bilou. Pokud ti z principu JPG diky ztratove kompresi "rozmazne okraje pisma na sedou", bude dosahovat o neco horsich vysledku nez format s neztratovou kompresi, ktery nic nerozmazne.
Ano tak to bylo mysleno. Jpg nielen rozmazava ale dokonca vytvara artefakty v okoli pismen, viz napr. http://upload.wikimedia.org/wikipedia/commons/6/6d /Sego_lily_cm-150.jpg
Je to kvoli tomu ze jpeg kompresia vzdy rozdeli obrazok na male stvorce a pre kazdy stvorec sa snazi najst vhodny jpeg "obrazec". Pre pismena logicky neexistuju presne obrazce ale len take vselijake s artefaktami. Cim vyssia kompresia je nastavena tym vacsie stvorceky a tym silnejsie artefakty.
P.S. a neni to kvoli podobnym farbam, artefakty vzniknu aj pri kompresii ciernobieleho obrazca (ktory mal originalne len farby 0,1)
ok, už to chňápu:)
Díky, zas jsem o něco chytřejší.
To OCR online je super, asi využiju.
Já používám ABBYY a jsem nadmíru spokojen...
Ked uz sme u tych OCR tak treba spomenut i open source tesseract-ocr.