Semalt- ը կիսում է ինտերնետային կայքերից տեղեկատվություն ստանալու հեշտ միջոց

Վեբ գրությունը `կայքերից բովանդակություն ստանալու հայտնի մեթոդ: Հատուկ ծրագրավորված ալգորիթմը գալիս է կայքի հիմնական էջ և սկսում է հետևել բոլոր ներքին հղումները ՝ հավաքելով ձեր նշած div- ների ինտերիերը: Արդյունքում `պատրաստ CSV ֆայլ, որը պարունակում է բոլոր անհրաժեշտ տեղեկատվությունը` խիստ կարգով: Արդյունքում CSV- ն կարող է օգտագործվել ապագայի համար `ստեղծելով գրեթե եզակի բովանդակություն: Եվ, ընդհանուր առմամբ, որպես աղյուսակ, նման տվյալները մեծ արժեք ունեն: Պատկերացրեք, որ շինարարական խանութի ամբողջ ցուցակը ներկայացված է աղյուսակում: Ավելին, յուրաքանչյուր ապրանքի համար արտադրանքի յուրաքանչյուր տեսակի և ապրանքանիշի համար լրացվում են բոլոր դաշտերն ու բնութագրերը: Storeանկացած հեղինակ-գրող, ով աշխատում է առցանց խանութում, ուրախ կլինի ունենալ նման CSV ֆայլ:

Կան բազմաթիվ գործիքներ կայքէջերից կամ վեբ գրությունները հանելու համար անհրաժեշտ գործիքներից, և մի անհանգստացեք, եթե դուք ծանոթ չեք որևէ ծրագրավորման լեզուների, այս հոդվածում ես ցույց կտամ ամենահեշտ ձևերից մեկը `օգտագործելով Scrapinghub- ը:

Առաջին հերթին ՝ անցեք scrapinghub.com, գրանցվեք և մուտք գործեք:

Ձեր կազմակերպության մասին հաջորդ քայլը կարելի է պարզապես բաց թողնել:

Այնուհետև հասնում եք ձեր պրոֆիլին: Պետք է ստեղծել նախագիծ:

Այստեղ դուք պետք է ընտրեք ալգորիթմ (մենք կօգտագործենք «Պորտիա» ալգորիթմը) և անուն տվեք նախագծին: Եկեք դա անվանենք ինչ-որ չափով անսովոր: Օրինակ ՝ «111»:

Այժմ մենք մտնում ենք ալգորիթմի աշխատանքային տարածք, որտեղ դուք պետք է մուտքագրեք այն վեբ-կայքի URL- ն, որի համար ցանկանում եք արդյունքներ քաղել: Դրանից հետո կտտացրեք «Նոր սարդ»:

Մենք կգնանք այն էջին, որը պատրաստվում է որպես օրինակ ծառայել: Հասցեն թարմացվում է վերնագրում: Կտտացրեք «Annotate This Page»:

Տեղափոխեք մկնիկի կուրսորը դեպի աջ, ինչը կդարձնի ցանկը: Այստեղ մենք հետաքրքրված ենք «Արդյունահանված տարր» ներդիրով, որտեղ դուք պետք է սեղմեք «Խմբագրել իրերը»:

Դեռևս ցուցադրվում է մեր դաշտերի դատարկ ցուցակը: Կտտացրեք «+ դաշտ»:

Այստեղ ամեն ինչ շատ պարզ է. Պետք է ստեղծել ոլորտների ցանկ: Յուրաքանչյուր նյութի համար անհրաժեշտ է մուտքագրել անուն (այս դեպքում ՝ վերնագիր և բովանդակություն), նշեք `պահանջվում է արդյոք այս դաշտը (« պարտադիր է ») և արդյոք այն կարող է տարբեր լինել (« Վարի »): Եթե նշեք, որ նյութը «պահանջվում է», ալգորիթմը պարզապես բաց կթողնի էջերը, որտեղ այն չի կարողանա լրացնել այս դաշտը: Եթե չհրապարակվի, գործընթացը կարող է հավերժ տևել:

Այժմ պարզապես կտտացրեք մեզ անհրաժեշտ դաշտը և նշեք, թե որն է.

Կատարած? Այնուհետև կայքի վերնագրում կտտացրեք «Պահպանեք նմուշը»: Դրանից հետո կարող եք վերադառնալ աշխատանքային տարածք: Այժմ ալգորիթմը գիտի ինչ-որ բան ձեռք բերել, մենք դրա համար պետք է խնդիր դնենք: Դա անելու համար կտտացրեք «Հրապարակեք փոփոխությունները»:

Գնացեք առաջադրանքների տախտակ, կտտացրեք «Run Spider»: Ընտրեք կայք, առաջնահերթություն և կտտացրեք «Գործարկել»:

Դե, գրությունն այժմ ավարտվում է: Դրա արագությունը ցույց է տրված ՝ ձեր կուրսորը մատնանշված ուղարկված հարցումների քանակի վրա մատնանշելով.

CSV- ում պատրաստ տողերի պատրաստման արագությունը `մատնանշելով մեկ այլ թիվ:

Արդեն պատրաստված իրերի ցուցակը տեսնելու համար պարզապես կտտացրեք այս համարին: Դուք կտեսնեք նման մի բան.

Ավարտելուց հետո արդյունքը կարելի է պահպանել ՝ սեղմելով այս կոճակը ՝

Դա այդպես է: Այժմ դուք կարող եք տեղեկատվություն քաղել կայքերից ՝ առանց ծրագրավորման որևէ փորձի:

mass gmail